O processamento de linguagem natural foi uma das áreas que mais se beneficiou com os avanços recentes da inteligência artificial. Por mais impressionantes que sejam os resultados produzidos por algoritmos em tarefas tão diversas quanto tradução ou compreensão de texto, mesmo os melhores modelos perdem performance ligeiramente quando devem analisar textos mais longos. Além disso, as tarefas de PLN são especialmente complexas, já que geralmente mais de uma predição pode ser aceita – existe mais de uma forma de falar a mesma coisa, por exemplo. Por isso, as avaliações dos algoritmos ainda devem ser feitas por um laborioso processo de verificação manual.
Um time de pesquisa do OpenAI está empenhado em melhorar tanto o processo de treinamento desses modelos nas tarefas de alta complexidade, quanto aquele de avaliação. Em um trabalho recente, eles descrevem como desenvolveram uma metodologia que decompõe a tarefa principal – resumir livros inteiros, no caso -, em tarefas menores, as quais são bem executadas pelos melhores modelos atuais, e também são mais fáceis de conferir pelos avaliadores humanos.
Com esta abordagem, eles realizaram um processo de fine-tuning do famoso modelo GPT-3, usando clonagem de comportamento e modelagem de recompensa, para que ele fosse capaz de fazer resumos de forma recursiva. A ideia é que um livro é quebrado em trechos menores que são tratados pelo modelo, e depois estes sumários são agregados para formar um novo sumário geral. A cada etapa, os avaliadores humanos fazem a avaliação e entregam o feedback para ajustar o modelo na direção do melhor desempenho. Como agora os avaliadores não precisam ler o livro inteiro para dar seu retorno, isto agiliza o processo até um tempo de duração aceitável.
O modelo treinado desta forma foi capaz de gerar resumos razoáveis de livros inteiros, alguns inclusive alcançando o mesmo nível de qualidade de resumos escritos por pessoas. Quando comparado com outros modelos disponíveis para a mesma tarefa, seu desempenho foi superior. Os resumos gerados foram usados em uma tarefa do tipo questionário, também alcançado um novo recorde, o que demonstra que os resumos têm o mesmo conteúdo informacional mas numa forma condensada.
Além das tarefas de PLN, a OpenAI comenta que está interessada numa questão ainda mais importante, a de garantir que a inteligência artificial produza resultados que estejam alinhados com os objetivos humanos. Em muitos casos, é difícil definir uma métrica matemática capaz de representar com exatidão um conceito abstrato. Este trabalho mostra que é importante manter o ser humano envolvido nesses processos, e que mesmo tarefas complexas podem ser repensadas para permitir que este feedback seja viabilizado sem comprometer a inteligência artificial nos domínios em que ela é superior.