Em um estudo publicado este mês, pesquisadores associados ao Instituto de Medicina Aeroespacial da Alemanha descobriram que modelos de linguagem de grande escala (LLMs) podem superar humanos na avaliação e resposta a situações sociais complexas. O estudo utilizou um Teste de Julgamento Situacional (SJT) padronizado para comparar o desempenho de cinco diferentes chatbots de IA com uma amostra de 276 participantes humanos, revelando capacidades surpreendentes na compreensão de dinâmicas sociais pela inteligência artificial.
A equipe de pesquisa empregou um SJT cuidadosamente selecionado com doze cenários, cada um apresentando quatro possíveis cursos de ação. Estes cenários foram especificamente escolhidos porque suas respostas corretas não estavam disponíveis publicamente, garantindo que os modelos de IA não pudessem simplesmente recuperar soluções pré-existentes. Os participantes humanos no estudo eram todos candidatos a piloto com pelo menos ensino médio completo, representando um grupo conhecido por ter um desempenho particularmente bom em tais testes. Os participantes de IA incluíram Claude, Microsoft Copilot, ChatGPT, Google Gemini e o assistente inteligente do you.com.
Os resultados foram notáveis, com vários modelos de IA superando significativamente os participantes humanos. Claude alcançou a maior pontuação média, seguido por Copilot e o assistente do you.com, todos os três pontuando notavelmente mais alto que a média humana. Mesmo ChatGPT e Gemini, embora não tenham superado significativamente os humanos, igualaram o desempenho. Quando as classificações de eficácia dos modelos de IA para diferentes opções comportamentais foram comparadas com as classificações de especialistas, elas mostraram um alinhamento notável, sugerindo uma compreensão sofisticada da dinâmica de situações sociais.
Essas descobertas têm implicações significativas para o futuro das aplicações de IA em contextos sociais. Os pesquisadores sugerem que chatbots de IA poderiam potencialmente servir como conselheiros sociais, oferecendo orientação em situações desconhecidas ou desafiadoras. Essa capacidade poderia ser particularmente benéfica para indivíduos que lutam com interações sociais, incluindo aqueles com formas leves de transtorno do espectro autista. Além disso, o estudo sugere possíveis aplicações em serviços de saúde mental, onde a IA poderia auxiliar na compreensão das circunstâncias sociais que contribuem para problemas de saúde.
No entanto, os pesquisadores enfatizam que essas capacidades vêm com importantes ressalvas e considerações éticas. Embora os modelos de IA tenham demonstrado um desempenho impressionante no julgamento de situações sociais, permanecem questões sobre sua consistência e confiabilidade, já que alguns modelos ocasionalmente forneceram respostas contraditórias em diferentes iterações do teste. Além disso, existem preocupações sobre possíveis vieses culturais nos julgamentos sociais dos modelos de IA, já que seus dados de treinamento podem refletir predominantemente normas sociais ocidentais. Os autores do estudo enfatizam a importância de manter uma perspectiva crítica ao implementar IA em contextos sociais e ressaltam a necessidade de transparência em relação a como esses modelos são influenciados por seu treinamento e prompts do sistema.