A inteligência artificial generativa que chamou a atenção nesta última semana foi o MusicLM, um modelo desenvolvido pelo Google Research capaz de gerar música a partir de descrições de texto. A ferramenta pode produzir música a partir de uma descrição detalhada ou mesmo de um prompt curto como “violino”, “aprendiz de flautista”, “jazz”, “praia caribenha” ou “anos 70”.
Em relação ao machine learning, o processo de geração foi implementado como uma tarefa do tipo sequence-to-sequence, onde o prompt é processado em sequência e produz uma “unidade sonora” por vez, da mesma forma com que são treinados os modelos de tradução de texto, por exemplo. Especificamente, o componente geracional é um módulo auto-regressivo chamado de AudioML, extendido para incorporar o condicionamento com texto. A saída final é um arquivo de música que mantém a consistência temática ao longo de vários minutos. O MusicLM foi avaliado frente a outros sistemas desenvolvidos com a mesma finalidade, sendo superior tanto em qualidade de áudio quanto na aderência ao prompt textual.
O modelo ainda demonstrou ser capaz de usar como prompt junto à descrição de texto uma melodia assoviada ou cantarolada, produzindo música inédita de acordo com as duas instruções.
Vários exemplos estão disponíveis no site do projeto, incluindo músicas geradas a partir de descrições de obras de arte, o que caracteriza um processo criativo. Para ajudar no avanço da técnica, os pesquisadores estão disponibilizando junto ao trabalho um dataset contendo 5,5 mil pares de música e texto, com anotações feitas por especialistas.
Este é mais um exemplo de aplicação bem sucedida dos modelos generativos, que reafirmam o potencial de utilizar a abordagem junto com datasets pareados de alta qualidade para que a inteligência artificial seja literalmente capaz de traduzir informação de um modal para outro.