Deep learning ajuda a identificar alimentos passíveis de recall a partir de reviews postados online

Intoxicações causadas por alimentos impróprios para consumo são relativamente comuns e trazem prejuízos para a saúde das pessoas e para a economia. Nos Estados Unidos, os processos de recall de alimentos contaminados são responsabilidade da Food and Drug Administration (FDA), uma agência governamental análoga à ANVISA brasileira. Entretanto, esse processo costuma ser bastante laborioso e lento. A agência é responsável por examinar várias suspeitas, e cada exame exige investigação profunda que pode levar vários meses. Nesse meio tempo, o produto contaminado pode continuar em circulação, causando potencialmente ainda mais danos. Por outro lado, as próprias empresas costumam voluntariamente retirar produtos suspeitos do mercado, diante do feedback recebido de consumidores, antes que o processo administrativo governamental tenha finalizado. Isso demonstra que existe a necessidade de um sistema de vigilância rápido e confiável para a detecção precoce de alimentos inseguros, e que o feedback do mercado consumidor pode ser aliado nesse processo.

Um trabalho publicado por pesquisadores da Escola de Saúde Pública da Universidade de Boston no último dia 5 apresenta uma nova forma de gerar alertas relacionados a possíveis contaminações alimentares. Os pesquisadores partiram de uma coleção de reviews de produtos postados na loja online da Amazon para atingir dois objetivos: mineirar e integrar um grande corpus de dados postados online para entender as tendências e as características em relatos de produtos alimentares inseguros; e desenvolver uma abordagem baseada em machine learning para a identificação precoce desses produtos.

O projeto iniciou vinculando reviews disponíveis em um repositório público, com reportes de recall publicados pelo FDA. Os principais motivos para recall foram identificados a partir dos relatórios do FDA usando técnicas de processamento de linguagem natural, especificamente modelagem de tópico não-supervisionada, onde cada texto é representado por uma combinação ponderada de alguns poucos tópicos; os resultados foram clusterizados em sete categorias. Os textos dos reviews foram vetorizados pelo cálculo da matriz TF-IDF (term frequency-inverse document frequency), onde cada texto é convertido em um histograma das palavras contidas, escalonado pela frequência dessas palavras em todos os textos considerados. Então, uma técnica chamada fatorização matricial não-negativa (NMF) permite a decomposição da matriz TF-IDF em duas novas matrizes, uma contendo a representação dos tópicos e a outra contendo o peso dos tópicos em cada review. A coleção de tópicos foi então aumentada pela inclusão de sinônimos, o que permitiu a identificação de um universo mais amplo de reviews adequados ao estudo. Uma amostra de 6000 reviews foi anotada manualmente para indicar se o produto em questão de fato representava riscos à saúde pública. O dataset final, que continha 352 reviews relacionados a produtos problemáticos, foi usado para treinar um algoritmo de machine learning no reconhecimento de padrões de escrita associados a esses problemas.

O algoritmo de melhor desempenho foi um método de deep learning chamado BERT (bidirectional encoder representation from transformations, ou representação de encoder bidirecional a partir de transformações), que é um modelo de linguagem não-supervisionado treinado em corpora extensos como artigos em inglês da Wikipedia. A ideia por trás do BERT é que ele usa um “modelo de linguagem mascarada”: após deletar algumas palavras aleatoriamente de uma frase, ele treina um transformador bidirecional para predizer as palavras removidas, fundindo as palavras à esquerda e à direita das omissões em um único espaço vetorial. Assim ele cria embeddings (representações vetoriais de textos) de melhor desempenho que, uma vez treinados, podem ser rapidamente aprimorados para tarefas específicas pela adição de uma camada extra, no final da rede, a ser treinada no novo contexto. Os autores do trabalho usaram essa última camada para classificar os reviews em duas categorias, seguro ou inseguro. A segunda categoria incluía aqueles produtos que de fato tiveram processos de recall acionados pelo FDA. O classificador treinado por 10 épocas alcançou precisão de 75% e recall de 74%.

Esse resultado é bastante promissor, já que ele indica que um único review pode ser considerado como alerta para recall com 75% de confiança. Esse nível é ainda mais relevante se considerarmos que o dataset era bastante desbalanceado (apenas 0.4% dos reviews eram para produtos inseguros), o que dificulta consideravelmente o treinamento de modelos de machine learning. Apesar de alguns cuidados terem que ser levados em consideração com respeito à abordagem utilizada, como a confiabilidade de reviews postados online, a vastidão e rapidez com que essas informações são disponibilizadas é uma fonte preciosa a ser explorada em casos como esse, onde a velocidade da resposta a problemas é tão essencial. Ferramentas baseadas nesse trabalho podem ser usadas para ajudar a identificar produtos inseguros para consumo, de forma que um recall possa ser acionado em tempo hábil para prevenir o impacto na saúde e na economia.