IA ajuda pessoas com dificuldades motoras e de fala a se comunicar com maior facilidade

Quando nos comunicamos com outras pessoas, nós tendemos a reutilizar um conjunto relativamente pequeno de palavras, frases e orações. Os algoritmos que buscam predizer a próxima palavra, incorporados aos teclados virtuais, usam essa propriedade para aumentar sua eficiência, sendo treinados em um conjunto grande de diálogos. Alguns podem até continuar aprendendo conforme o usuário vai fornecendo mais dados ao usar o teclado, assim se adaptando ao estilo individual de quem o utiliza.

Além de facilitar a vida de quem usa essa forma de digitação, esses algoritmos têm impacto ainda mais relevante na vida de pessoas com dificuldade de fala, especialmente aquelas que ainda sofrem de alguma desordem motora. Essas pessoas geralmente usam dispositivos computacionais que produzem fala a partir do texto digitado em um teclado. Entretanto, a desordem motora acaba sendo um complicante, já que a pessoa consegue digitar apenas entre 5 e 20 palavras por minuto, enquanto que uma conversa normal costuma conter entre 100 e 140 palavras no mesmo intervalo. Dessa forma, essas pessoas têm dificuldade em manter conversas significativas.

Com um trabalho apresentado em abril na Conferência de Fatores Humanos em Sistemas Computacionais (Conference on Human Factors in Computing Systems), pesquisadores associados às Universidades de Cambridge e Dundee, no Reino Unido, apresentaram uma nova abordagem para resolver esse problema. Eles propõem um sistema de predição de palavras que também leva em consideração o contexto onde a conversa ocorre, para refinar ainda mais sua capacidade de acelerar a produção de texto. O algoritmo teria acesso a informações como a hora do dia, o local onde a pessoa se encontra, ou com quem ela conversa – identificação que seria possível por reconhecimento facial, possibilitado por uma câmera localizada, por exemplo, na cadeira de rodas do usuário. O método, cuja eficiência é avaliada pelo número de teclas digitadas pelo usuário, alcançou uma redução de 70 a 97%, dependendo da situação e dos parâmetros do modelo.

Na prática, o que o algoritmo tenta fazer é recuperar a frase mais provável de um banco de dados, com base nas teclas já digitadas, nas informações contextuais fornecidas pelo sistema, e nos diálogos anteriores do usuário nas mesmas condições de contexto. O trabalho revelou que apenas duas informações contextuais são suficientes para promover o maior ganho de performance, enquanto que o recurso de auto-completar tem um papel secundário.

O estudo demonstrou que a geração de sentenças com base no contexto tem o potencial de melhorar consideravelmente a economia de teclas digitadas por usuários do sistema. As informações contextuais consideradas foram geradas por sensores simples e comuns atualmente, como relógios e localizadores GPS, e os algoritmos usados para predição das palavras são implementações clássicas, de forma que há uma margem considerável para melhoria de desempenho, usando tecnologias mais refinadas.