Home › Fóruns › Fórum Classificação de Áudio com Python: O Guia Completo › Vosk – Como Melhorar Acurácia da Transcrição
Marcado: Introdução (Transcrição de áudio)
- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 2 anos, 5 meses atrás por
Dalton Vargas.
- AutorPosts
- 21 de novembro de 2022 às 01:35 #38081
Olá,
Alguém tem alguma ideia de como melhorar a acurácia da transcrição de arquivo de áudio em texto utilizando a biblioteca Vosk?
Tentei utilizar o modelo mais robusto da FalaBrazil, mas não houve melhoria notável.
Alguém sabe alguma forma de reduzir o ruído do áudio na Vosk, de forma semelhante a que foi demonstrada com a biblioteca Speech_Recognition, e se afinal, reduzir o ruído melhora realmente a acurácia?
Pensei em eliminar as frequências graves e agudas (filtros de passe alta e passe baixa) deixando somente as frequências médias, que são as que predominam na voz humana.
Se alguém teve alguma experiência exitosa em melhorar o desempenho, por favor, compartilhem conosco por aqui!
Eu experimentei uma ferramenta paga para transcrição chamada Sonix (https://sonix.ai/accounts/sign_up?locale=pt), os resultados que eles conseguem são surpreendentes. Gostaria muito de saber como eles chegaram nesse patamar.
Grande abraço!
21 de novembro de 2022 às 17:51 #38098Olá Ilton!
De acordo com a documentação do Vosk é sugerido algumas verificações:
- o áudio deve estar em boa qualidade;
- as condições de áudio, como sotaque, realmente não foram as usadas no treinamento do modelo;
- problemas de áudio imprevisíveis, como queda de quadro ou bugs de codificação de quadro;
- erros de software.
Dito isto, você também pode tentar implementar algumas das técnicas de pré-processamento de áudio demonstradas aqui no curso, principalmente nas técnicas utilizadas no exemplo de treinamento do modelo de reconhecimento de comandos básicos.
- AutorPosts
- Você deve fazer login para responder a este tópico.