No final de março, a OpenAI anunciou progressos na área da fala sintética, através da divulgação de um relatório preliminar sobre seu novo modelo, Voice Engine. Ao analisar grandes conjuntos de dados de fala humana, o modelo pode gerar áudio realista e expressivo de alta fidelidade, replicando diversos tons e emoções, com apenas 15 segundos de áudio para usar como referência.
Essa tecnologia tem um enorme potencial para diversas aplicações, como o reporte deixa evidente através de várias iniciativas que aplicam a ferramenta. Notavelmente, oferece uma solução poderosa para pessoas com deficiências de fala, permitindo que elas se comuniquem com vozes únicas e não robóticas, que podem escolher para melhor se representarem. Além disso, a capacidade de gerar fala em vários idiomas com uma voz consistente abre portas para aplicações multilíngues, permitindo que comunicadores transfiram sua própria voz para idiomas que não dominam. Ainda é possível criar audiolivros ou materiais educacionais que possam ser adaptados a diferentes públicos. Os pesquisadores também estão investigando o potencial do Voice Engine para auxiliar pessoas no aprendizado de idiomas, fornecendo-lhes modelos de pronúncia realistas. No anúncio, é possível ouvir vários exemplos dessas aplicações.
No entanto, a OpenAI reconhece a importância do desenvolvimento responsável juntamente com o potencial inegável do Voice Engine. A tecnologia de fala sintética levanta preocupações sobre mau uso e potencial enganação. Atores mal-intencionados poderiam utilizar essa tecnologia para criar deepfakes ou imitar pessoas reais. A OpenAI enfatiza a necessidade de transparência e identificação clara de vozes geradas sinteticamente. Eles também reconhecem a importância da pesquisa contínua e da colaboração com formuladores de políticas, pesquisadores e desenvolvedores para garantir o uso ético e responsável dessa ferramenta poderosa. Por isso, por enquanto o modelo segue com acesso limitado, até que essas políticas de uso responsável sejam estabelecidas.
Ainda assim, é inegável que a capacidade de gerar vozes expressivas e com som natural abre portas para a melhoria da acessibilidade da comunicação, aplicações criativas e até mesmo avanços na educação e aprendizagem de idiomas.