IA aplica compressores de arquivos para classificar textos

Sendo uma das tarefas fundamentais na área de processamento de linguagem natural, a classificação de textos se beneficiou bastante dos avanços recentes nos modelos baseados em redes neurais, principalmente depois da consolidação da estrutura transformer. Entretanto, os modelos de melhor desempenho costumam ser robustos, de elevado custo computacional, além de exigirem a ingestão de uma enorme quantidade de dados, e um cuidadoso processo de seleção de hiperparâmetros. Para tarefas mais simples ou com pequena quantidade de dados, a abordagem pode ser inviável.

Para contornar esses percalços, tem chamado a atenção um artigo publicado semana passada por pesquisadores da Universidade de Waterloo, no Canadá. Eles desenvolveram um método não-supervisionado, que não depende de treinamento, que conseguiu se equiparar em desempenho com muitos modelos estado-da-arte. Curiosamente, a ideia aplica conceitos de informática mais antigos para representar e agrupar os dados. O método de representação é particularmente interessante: eles utilizaram algoritmos tradicionais de compressão de arquivos, como o gzip.

Os compressores são algoritmos que comprimem dados, eliminando padrões redundantes. No caso de textos, os documentos de uma mesma classe devem compartilhar mais padrões redundantes do que documentos de classes diferentes. Portanto, um compressor pode ser usado para representar os documentos em um espaço latente e possibilitar sua comparação. No trabalho apresentado, a similaridade foi determinada pelo clássico método kNN (k-nearest neighbors), que aplica uma função para calcular a distância entre os registros neste espaço latente.

O método foi testado comparativamente com modelos de machine learning, utilizando sete datasets “in-distribution”, ou seja, com dados similares àqueles utilizados no treinamento, e cinco “out-of-distribuition”. No primeiro caso, os resultados utilizando gzip são competitivos em seis dos sete datasets, e no segundo, são os melhores resultados reportados, superando até o BERT. Adicionalmente, o trabalho avaliou o método em uma configuração few-shot, quando a quantidade de dados é pequena, ocasião em que ele também superou os concorrentes.

Este desenvolvimento chama a atenção pela aplicação inteligente e inovadora de métodos clássicos em um domínio diferente daquele para o qual eles foram inicialmente desenvolvidos, além de entregar uma metodologia simples de desenvolver e utilizar que é tão eficiente quanto as redes neurais mais sofisticadas.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.