OpenAI apresenta Whisper, sistema de transcrição de áudio com desempenho humano

Apesar de todo o progresso recente na área de processamento de linguagem natural, as tarefas mais beneficiadas foram aquelas associadas a sistemas de conversação, onde o usuário poderia interagir com a inteligência artificial no formato de texto. A transcrição de áudio para texto teve desenvolvimento mais lento, e apesar de várias ferramentas já produzirem legendas automaticamente, a qualidade ainda não estava a par dos sistemas conversacionais.

Na última semana, a OpenAI mudou este paradigma ao disponibilizar em formato aberto o código para o Whisper, uma rede neural treinada na tarefa de transcrição de áudio. A arquitetura do modelo segue a abordagem to tipo end-to-end, onde um encoder aprende a codificar o áudio e um decoder aprende a converter o sinal para texto. Durante o processamento, o áudio de entrada é fragmentado em sequências de 30 segundos e passado para o encoder no formato de um espectrograma, que é uma forma tradicional para representar dados sonoros. O decoder recebe tokens especiais que direcionam o modelo para realizar uma tarefa específica, como a identificação do idioma, a geração de marcas de tempo, a transcrição do discurso em um idioma desejado, ou a tradução do áudio para a versão em inglês da transcrição.

O sistema treinou com cerca de 680 mil horas de áudio coletados da internet, compreendendo vários idiomas e tarefas diferentes. Os autores acreditam que o tamanho e a diversidade dos dados foram responsáveis pela alta robustez do Whisper com relação a sotaques, sons de fundo e linguagem técnica. O resultado foi um modelo que produz transcrições tão boas quanto aquelas produzidas por um humano. Alguns exemplos podem ser vistos na página de apresentação do sistema.

A empresa está disponibilizando o trabalho e o código do Whisper na expectativa de popularizar ainda mais as interfaces de voz de aplicações inovadoras.

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.