Os modelos generativos são o destaque atual na inteligência artificial de ponta. Seus principais representantes são os modelos que produzem texto, como o GPT-3 e o ChatGPT, e os modelos que produzem imagens, como o StableDiffusion e o DALL-E. No início do mês, a Microsoft nos apresentou mais um modal informacional contemplado por esta abordagem. Seu sistema batizado de VALL-E é capaz de criar vozes a partir de prompts de texto.
O modelo foi treinado com mais de 60 mil horas de trechos de áudio de cerca de 3 segundos de duração cada, que funcionam como um prompt acústico, junto com um prompt de texto inédito. Ele deve então aprender a “transferir” a voz para o texto, como se a mesma pessoa estivesse lendo o prompt textual. A tarefa foi desenvolvida como se o VALL-E fosse um modelo de linguagem condicional, ao invés de uma regressão contínua de sinal, que era a forma adotada tradicionalmente. O resultado é uma síntese de voz muito mais natural, que não só reproduz com alta fidelidade os aspectos sonoros do interlocutor original, mas também suas emoções e características acústicas do ambiente, e isso com uma referência de apenas 3 segundos. Na página do projeto são apresentados vários exemplos e comparações em diferentes contextos.
Os criadores comentam que o VALL-E torna possível várias aplicações relacionadas a síntese de voz, como a geração do tipo zero-shot, ou seja, sem áudio de referência, a edição de discurso, e a criação de conteúdo combinada com modelos generativos de outros modais.
Por enquanto a ferramenta não está disponível para desenvolvedores, mas assim como aconteceu com as outras inteligências artificiais desta classe, isto deve acontecer em breve. O artigo, entretanto, pode ser consultado em formato livre.