VALL-E é o modelo generativo da Microsoft que produz discursos em forma de áudio
O modelo usa um prompt de áudio e um prompt de texto para “transferir” a voz do áudio para o novo texto.
O modelo usa um prompt de áudio e um prompt de texto para “transferir” a voz do áudio para o novo texto.