Um trabalho científico publicado no começo do mês utilizou inteligência artificial para revelar insights notáveis sobre como o cérebro humano processa a linguagem durante conversas naturais. Os cientistas desenvolveram um modelo computacional unificado que conecta estruturas acústicas, de fala e linguísticas para explorar a atividade neural durante a conversação cotidiana. Utilizando eletrocorticografia (ECoG), pesquisadores registraram sinais neurais de pacientes envolvidos em conversas reais e abertas, coletando um conjunto de dados sem precedentes de aproximadamente 100 horas de produção e compreensão da fala.
O estudo utilizou um modelo multimodal de fala-para-texto chamado Whisper para extrair vários níveis de processamento da linguagem: embeddings acústicos da camada de entrada auditiva, embeddings de fala do codificador de fala, e embeddings linguísticos do decodificador de linguagem. Ao construir modelos de codificação que mapeiam esses embeddings na atividade cerebral, os pesquisadores descobriram que o modelo prevê com precisão a atividade neural em toda a hierarquia de processamento da linguagem durante conversas reais. Isso demonstra um alinhamento notável entre as representações internas do modelo Whisper e a atividade cerebral humana durante o processamento da linguagem natural.
A pesquisa revelou uma organização hierárquica no sistema de linguagem do cérebro. Áreas relacionadas à fala, como o giro temporal superior e regiões somatomotoras, foram melhor modeladas por embeddings de fala, enquanto áreas linguísticas de nível superior, como o giro frontal inferior e o giro angular, alinharam-se mais estreitamente com embeddings linguísticos. Além disso, durante a produção da fala, a atividade cerebral segue uma sequência de codificação da linguagem para a fala antes da articulação da palavra, enquanto durante a compreensão, ocorre uma sequência inversa de codificação da fala para a linguagem após a articulação. O estudo também descobriu que a infusão de informações de fala nos embeddings linguísticos melhorou a previsão de atividade neural em áreas de linguagem, sugerindo que o cérebro, como o modelo Whisper, codifica a relação intrincada entre fala e linguagem.
Esta pesquisa desafia os modelos simbólicos tradicionais de processamento da linguagem que dependem de unidades discretas como fonemas e classes gramaticais. A abordagem de aprendizado profundo, que utiliza representações vetoriais multidimensionais contínuas, superou significativamente os modelos simbólicos na captura da atividade neural durante conversas naturais. Curiosamente, embora o modelo Whisper não tenha sido explicitamente treinado para reconhecer fonemas ou classes gramaticais, esses construtos linguísticos emergiram naturalmente em seu espaço de embeddings, sugerindo que descritores simbólicos de alto nível da linguagem humana podem emergir da aprendizagem estatística sem depender de unidades simbólicas predefinidas.
Esta descoberta apoia uma mudança de paradigma em direção a modelos computacionais unificados que capturam toda a hierarquia de processamento para compreensão e produção da fala em contextos do mundo real, enfatizando o papel da aprendizagem estatística baseada no uso na aquisição e processamento da linguagem.