Responder a: Classificação

#30165
Fábio Spak
Participante

    Olá Guilherme, segue o comentário do Denny:

    Não tenho conhecimento de aplicações do BERT num contexto assim, mas acho que seria muito mais prático aplicar uma correção na base de dados para padronizar as nomenclaturas, e depois fazer um agrupamento usando a técnica bag of words, já que cada loteamento teria exatamente as mesmas palavras na sua descrição. A parte mais trabalhosa seria com a padronização, mas para não precisar de regras explícitas ele poderia de fato retirar acentuação, colocar em minúsculo e usar alguma técnica de stemmização, talvez isso já ajude o suficiente, entretanto são necessário realizar testes.

    Fabio