Home › Fóruns › Fórum Processamento de Linguagem Natural com BERT e Python › Classificação › Responder a: Classificação
23 de agosto de 2021 às 23:07 #30165
Olá Guilherme, segue o comentário do Denny:
Não tenho conhecimento de aplicações do BERT num contexto assim, mas acho que seria muito mais prático aplicar uma correção na base de dados para padronizar as nomenclaturas, e depois fazer um agrupamento usando a técnica bag of words, já que cada loteamento teria exatamente as mesmas palavras na sua descrição. A parte mais trabalhosa seria com a padronização, mas para não precisar de regras explícitas ele poderia de fato retirar acentuação, colocar em minúsculo e usar alguma técnica de stemmização, talvez isso já ajude o suficiente, entretanto são necessário realizar testes.
Fabio