Desde o surgimento da Alexa, da Siri e do Google Assistant, a inteligência artificial ganhou vozes que permitiram nossa comunicação com ela através da fala. Mas as primeiras iterações desta tecnologia ainda deixavam evidente que os assistentes não eram reais. O vocabulário era limitado, a entonação era plana, não havia pausa na junção entre as palavras, de forma que o resultado ainda era bastante robótico. Em aplicações que necessitavam de maior requinte, qualquer eventual melhoria deveria ser inserida em uma “pós-produção” por um processo laborioso de edição sonora. Mas isto não é mais a realidade entre as empresas especializadas em gerar voz sintética.
Atualmente, muitas startups empregam algoritmos de deep learning para gerar vozes que reproduzem os menores detalhes do discurso humano. A entonação é ajustada para o contexto, se adequando por exemplo a um cenário emocional. Pausas e respirações são adicionadas nos lugares certos. No final, o resultado se torna indistinguível de uma fala real. E isto sem qualquer programação ou edição específica. Tudo que o algoritmo precisa é de uma quantidade suficiente de exemplos de áudio, a partir dos quais ele aprende a generalizar. Depois, ele pode gerar uma fala recebendo como entrada um trecho de texto.
Como exemplo, uma dessas empresas, a WellSaid Labs, que surgiu a partir do Instituto Allen de Inteligência Artificial, utiliza dois modelos primários na geração de vozes sintéticas. O primeiro prediz, a partir de uma passagem de texto, quais as características gerais do discurso, incluindo o sotaque, o tom e o timbre. O segundo insere os detalhes, como as respirações e a reverberação em função do ambiente onde o discurso deve ocorrer. O resultado pode ser demonstrado abaixo.
As vozes sintéticas geradas por inteligência artificial já estão sendo utilizadas em diversas áreas. A WellSaid, por exemplo, produz fala para vídeos institucionais, mas outras empresas estão também entregando produtos destinados a assistentes virtuais, operadores de call center e até personagens de videogames. A tecnologia ainda tem limitações: a fala gerada perde o realismo em textos mais longos, não sendo adequada ainda para ler audiobooks ou gerar podcasts por exemplo, e é mais difícil dirigir sua performance durante a dublagem de uma animação de longa metragem. Mas em situações mais isoladas, como para personagens secundários de filmes e jogos, sua performance já é bastante convincente.
O potencial de aplicação futura também é muito interessante. Se hoje as empresas criam a identidade de suas marcas com logos, cores, jingles e slogans, em breve elas também poderão desenvolver uma voz, que poderá inclusive ser adaptada em outros idiomas e sotaques, para manter a consistência da marca independente do contexto. Em uma peça promocional, a mesma voz poderá ser adequada para apresentar uma propaganda direcionada a um usuário específico, ajudando a criar laços mais pessoais com o público.
O grau de personalização da interação por fala com os usuários de inteligência artificial deve, inclusive, ser uma das maiores aplicações dos algoritmos que produzem vozes. No futuro próximo, nossos assistentes virtuais poderão ter a voz que nós gostaríamos, tornando nossa convivência mais agradável. Até o atendimento de um call center poderá ser mais produtivo quando o assistente prestar um serviço tão personalizado. É difícil não ficar encantado com as possibilidades que esta tecnologia oferece.