Vosk – Como Melhorar Acurácia da Transcrição

Home Fóruns Fórum Classificação de Áudio com Python: O Guia Completo Vosk – Como Melhorar Acurácia da Transcrição

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #38081
    Profile photo ofIgomorfIlton Ornelas
    Participante

    Olá,

    Alguém tem alguma ideia de como melhorar a acurácia da transcrição de arquivo de áudio em texto utilizando a biblioteca Vosk?

    Tentei utilizar o modelo mais robusto da FalaBrazil, mas não houve melhoria notável.

    Alguém sabe alguma forma de reduzir o ruído do áudio na Vosk, de forma semelhante a que foi demonstrada com a biblioteca Speech_Recognition, e se afinal, reduzir o ruído melhora realmente a acurácia?

    Pensei em eliminar as frequências graves e agudas (filtros de passe alta e passe baixa) deixando somente as frequências médias, que são as que predominam na voz humana.

    Se alguém teve alguma experiência exitosa em melhorar o desempenho,  por favor, compartilhem conosco por aqui!

    Eu experimentei uma ferramenta paga para transcrição chamada Sonix (https://sonix.ai/accounts/sign_up?locale=pt), os resultados que eles conseguem são surpreendentes. Gostaria muito de saber como eles chegaram nesse patamar.

    Grande abraço!

    #38098
    Dalton Vargas
    Moderador

    Olá Ilton!

    De acordo com a documentação do Vosk é sugerido algumas verificações:

    • o áudio deve estar em boa qualidade;
    • as condições de áudio, como sotaque, realmente não foram as usadas no treinamento do modelo;
    • problemas de áudio imprevisíveis, como queda de quadro ou bugs de codificação de quadro;
    • erros de software.

    Dito isto, você também pode tentar implementar algumas das técnicas de pré-processamento de áudio demonstradas aqui no curso, principalmente nas técnicas utilizadas no exemplo de treinamento do modelo de reconhecimento de comandos básicos.

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Você deve fazer login para responder a este tópico.