VALL-E é o modelo generativo da Microsoft que produz discursos em forma de áudio

O modelo usa um prompt de áudio e um prompt de texto para “transferir” a voz do áudio para o novo texto.