Os modelos de linguagem grandes (LLMs) são notáveis na geração de conteúdo bem escrito, porém nem sempre alinhado às preferências humanas. Dado o enorme volume de dados com que são treinados, não é viável executar uma fase de curadoria nesse material, e por isso vieses e conteúdo perigoso podem ser incorporados às capacidades do modelo. Algumas abordagens tentam resolver este problema com uma etapa offline chamada de human in the loop, onde uma pessoa inspeciona os resultados gerados pelo modelo e fornece um feedback para seu aperfeiçoamento. Esta técnica, entretanto, é claramente onerosa e pouco eficiente.
Para tornar a tarefa de alinhamento escalonável, um trabalho publicado pelo grupo DeepMind do Google apresenta um framework batizado de Auto-Treinamento Reforçado (Reinforced Self-Training, ReST). O ReST aborda o desafio do alinhamento entre LLMs e preferências humanas através de dois ciclos interconectados: crescimento e aperfeiçoamento. Na fase de crescimento, várias previsões de saída são geradas para cenários diversos usando a política do modelo de linguagem. Essas previsões ampliam o conjunto de treinamento e preparam para refinamentos futuros. O diferencial do ReST está na fase de aperfeiçoamento, que opera no conjunto de dados refinado da fase anteiror.
Na fase de aperfeiçoamento, o conjunto de dados enriquecido passa por um processo de curadoria automática, com uma pontuação baseada em um modelo de recompensa oriundo de preferências humanas. Esse conjunto refinado serve de base para ajustar o modelo de linguagem através do aprendizado por reforço offline. O ReST é iterativo, com vários ciclos de crescimento e aperfeiçoamento melhorando continuamente o conjunto de dados de treinamento e refinando a política do modelo de linguagem.
O ReST oferece vantagens em relação às abordagens tradicionais de aprendizado por reforço, online ou offline. Ele maximiza a eficiência do crescimento em várias etapas de aperfeiçoamento, reduzindo os custos computacionais. A qualidade da política não é limitada pelo conjunto de dados original, pois novos dados são amostrados da política em evolução. A separação clara entre as duas fases facilita a análise da qualidade dos dados e a detecção de problemas de alinhamento.
O método foi testado em uma tarefa de tradução automática, demonstrando sua eficácia em melhorar os resultados de modelos de recompensa em testes e validações. O ReST superou consistentemente abordagens de aprendizado supervisionado, produzindo traduções de melhor qualidade avaliadas por humanos.