IA converte sinais cerebrais em texto, com alta precisão e velocidade similar à da fala natural

Na última década, começaram a surgir pesquisas que tratam da integração entre o cérebro e o computador, geralmente buscando reabilitar portadores de algum tipo de deficiência através da decodificação de sinais do sistema nervoso em respostas motoras realizadas por próteses mecânicas. Uma dessas aplicações trata da tradução de sinais desse tipo em texto. Os resultados atualmente não são muito impressionantes, tendo baixa precisão e velocidade, o que limita a aplicação da tecnologia como substituta da fala natural.

Pesquisadores da Universidade da Califórnia San Diego deram um passo importante na direção de uma solução mais sofisticada. Em um artigo publicado em março, eles apresentaram uma inteligência artificial capaz de “traduzir” sinais emitidos pelo córtex humano em texto, com alta precisão e em velocidades comparáveis àquelas do discurso natural. O sistema foi projetado para agir de fato como um tradutor, decodificando o sinal de uma “linguagem”, aquela dos neurônio, para o inglês, tanto que a arquitetura da rede utilizada foi a de encoder-decoder. A primeira parte codifica os sinais nervosos em um espaço dimensional comum às duas linguagens, e a segunda parte decodifica desse espaço até o idioma que será representado por texto.

Para treinar o algoritmo, os autores recrutaram 4 pacientes que já tinham implantes no cérebro com o objetivo de controlar episódios de epilepsia. Os cientistas gravaram os sinais captados pelos implantes quando essas pessoas liam algumas frases indicadas em voz alta. Os sinais foram processados primeiro por uma rede neural convolucional, que produziu features relacionados às regularidades temporais presentes na atividade cerebral. Esses features então passaram para um encoder do tipo rede neural recorrente, sendo representados em um estado escondido, que foi usado no módulo decoder para enfim se tornar texto.

O sistema alcançou um nível de precisão inédito, sendo que em um participante, a taxa de erro (definido por palavras faltantes, sobrando, ou erradas) foi de apenas 3%. Para comparação, transcrições feitas por profissionais têm taxas na faixa de 5%. O modelo também se mostrou robusto para aplicação de transfer learning, ou seja, o treinamento feito com dados de uma pessoa se adaptava bem quando aplicado a outra.

Os autores são cautelosos sobre aplicações imediatas do estudo. O universo de frases em que o modelo foi treinado era bastante limitado, tornando sua generalização impraticável. Além disso, os pacientes tinham implantes físicos no cérebro, o que por enquanto impede o uso da tecnologia como um “leitor de mentes”. O trabalho serve mais como prova de conceito, sugerindo que é possível sim alcançar resultados práticos na transcrição de texto a partir de sinais cerebrais, fazendo uso da inteligência artificial. Ainda assim, a expansão de linhas de pesquisa nessa área deve permitir no futuro que pessoas com a fala incapacitada possam voltar a se comunicar sem esforço.