Conforme reportado no site da Nature, pesquisadores da Universidade Chinesa de Hong Kong (CUHK) estão utilizando inteligência artificial para transformar a vida de indivíduos afetados pela disartria, uma condição neurológica que torna a fala lenta, arrastada e difícil de compreender. O Laboratório de Comunicações Humano-Computador desenvolveu soluções inovadoras que podem reconhecer e reconstruir a fala pouco clara, tornando-a mais inteligível tanto para ouvintes humanos quanto para máquinas.
O trabalho da equipe de pesquisa é particularmente significativo, pois se estende além do inglês para incluir línguas tonais como o chinês, abordando especificamente as necessidades dos falantes de cantonês. Para facilitar esse avanço, eles criaram o Chinese University Dysarthria Corpus (CUDYS), um conjunto de dados especializado de fala disártrica em cantonês que permite o treinamento de modelos de IA específicos para o idioma. Esta iniciativa aborda uma lacuna crucial na pesquisa de tecnologia da fala, já que a maioria dos conjuntos de dados publicamente disponíveis tradicionalmente se concentrava em falantes de inglês.
O sistema de reconstrução de fala disártrica (DSR) baseado em IA da equipe demonstrou resultados notáveis, alcançando aproximadamente 30% de redução nos erros de reconhecimento por máquina em comparação com a fala disártrica original. O sistema emprega um codificador baseado em IA para extrair características da fala bruta e traduzi-las em características latentes, que são então processadas através de algoritmos adicionais de IA para gerar uma fala mais clara através de um sintetizador. Melhorias recentes incorporando aprendizado de representação de fala auto-supervisionado e unidades discretas de fala aprimoraram ainda mais o desempenho do sistema, tornando-o mais robusto contra ruído de fundo e diferentes velocidades de fala.
Central para o sucesso desta pesquisa é a profunda compreensão da equipe sobre as características acústico-fonéticas da disartria. Eles identificaram 20 características vocais distintivas que representam diferentes aspectos do controle muscular, fornecendo insights cruciais sobre como a fala disártrica difere da fala regular. Este conhecimento não apenas melhorou seus modelos de IA, mas também contribuiu para o desenvolvimento de técnicas de terapia da fala e auxílios de comunicação mais eficazes.
As implicações desta pesquisa se estendem além do tratamento da disartria, pois a equipe também está explorando o potencial dos sistemas de análise de voz para detectar e monitorar condições neurológicas como demência e doença de Alzheimer. Através de sua plataforma inovadora de IA, eles podem extrair marcadores de doenças neurológicas da linguagem falada, incluindo indicadores como falta de fluência e padrões de hesitação. Este trabalho, conduzido através do Centro de Inteligência Perceptual e Interativa, representa um passo significativo no uso da tecnologia de IA para aprimorar a comunicação humana e o bem-estar, demonstrando a poderosa interseção entre inteligência artificial e inovação em saúde.