- This topic has 1 reply, 2 voices, and was last updated 3 years, 6 months ago by .
Viewing 2 posts - 1 through 2 (of 2 total)
Viewing 2 posts - 1 through 2 (of 2 total)
- You must be logged in to reply to this topic.
Home › Forums › Fórum Classificação de Áudio com Python: O Guia Completo › Vosk – Como Melhorar Acurácia da Transcrição
Olá,
Alguém tem alguma ideia de como melhorar a acurácia da transcrição de arquivo de áudio em texto utilizando a biblioteca Vosk?
Tentei utilizar o modelo mais robusto da FalaBrazil, mas não houve melhoria notável.
Alguém sabe alguma forma de reduzir o ruído do áudio na Vosk, de forma semelhante a que foi demonstrada com a biblioteca Speech_Recognition, e se afinal, reduzir o ruído melhora realmente a acurácia?
Pensei em eliminar as frequências graves e agudas (filtros de passe alta e passe baixa) deixando somente as frequências médias, que são as que predominam na voz humana.
Se alguém teve alguma experiência exitosa em melhorar o desempenho, por favor, compartilhem conosco por aqui!
Eu experimentei uma ferramenta paga para transcrição chamada Sonix (https://sonix.ai/accounts/sign_up?locale=pt), os resultados que eles conseguem são surpreendentes. Gostaria muito de saber como eles chegaram nesse patamar.
Grande abraço!
Olá Ilton!
De acordo com a documentação do Vosk é sugerido algumas verificações:
Dito isto, você também pode tentar implementar algumas das técnicas de pré-processamento de áudio demonstradas aqui no curso, principalmente nas técnicas utilizadas no exemplo de treinamento do modelo de reconhecimento de comandos básicos.