Vosk - Como Melhorar Acurácia da Transcrição

Tagged: Introdução (Transcrição de áudio)

This topic has 1 reply, 2 voices, and was last updated 3 years, 8 months ago by Dalton Vargas.

Viewing 2 posts - 1 through 2 (of 2 total)

Author

Posts
21 de novembro de 2022 at 01:35 #38081
Ilton Ornelas
Participant
Olá,

Alguém tem alguma ideia de como melhorar a acurácia da transcrição de arquivo de áudio em texto utilizando a biblioteca Vosk?

Tentei utilizar o modelo mais robusto da FalaBrazil, mas não houve melhoria notável.

Alguém sabe alguma forma de reduzir o ruído do áudio na Vosk, de forma semelhante a que foi demonstrada com a biblioteca Speech_Recognition, e se afinal, reduzir o ruído melhora realmente a acurácia?

Pensei em eliminar as frequências graves e agudas (filtros de passe alta e passe baixa) deixando somente as frequências médias, que são as que predominam na voz humana.

Se alguém teve alguma experiência exitosa em melhorar o desempenho, por favor, compartilhem conosco por aqui!

Eu experimentei uma ferramenta paga para transcrição chamada Sonix (https://sonix.ai/accounts/sign_up?locale=pt), os resultados que eles conseguem são surpreendentes. Gostaria muito de saber como eles chegaram nesse patamar.

Grande abraço!
21 de novembro de 2022 at 17:51 #38098
Dalton Vargas
Moderator
Olá Ilton!

De acordo com a documentação do Vosk é sugerido algumas verificações:
- o áudio deve estar em boa qualidade;
- as condições de áudio, como sotaque, realmente não foram as usadas no treinamento do modelo;
- problemas de áudio imprevisíveis, como queda de quadro ou bugs de codificação de quadro;
- erros de software.
Dito isto, você também pode tentar implementar algumas das técnicas de pré-processamento de áudio demonstradas aqui no curso, principalmente nas técnicas utilizadas no exemplo de treinamento do modelo de reconhecimento de comandos básicos.
Author

Posts

Viewing 2 posts - 1 through 2 (of 2 total)

You must be logged in to reply to this topic.