Vosk – Como Melhorar Acurácia da Transcrição

Home Fóruns Fórum Classificação de Áudio com Python: O Guia Completo Vosk – Como Melhorar Acurácia da Transcrição

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #38081
    Ilton Ornelas
    Participante

      Olá,

      Alguém tem alguma ideia de como melhorar a acurácia da transcrição de arquivo de áudio em texto utilizando a biblioteca Vosk?

      Tentei utilizar o modelo mais robusto da FalaBrazil, mas não houve melhoria notável.

      Alguém sabe alguma forma de reduzir o ruído do áudio na Vosk, de forma semelhante a que foi demonstrada com a biblioteca Speech_Recognition, e se afinal, reduzir o ruído melhora realmente a acurácia?

      Pensei em eliminar as frequências graves e agudas (filtros de passe alta e passe baixa) deixando somente as frequências médias, que são as que predominam na voz humana.

      Se alguém teve alguma experiência exitosa em melhorar o desempenho,  por favor, compartilhem conosco por aqui!

      Eu experimentei uma ferramenta paga para transcrição chamada Sonix (https://sonix.ai/accounts/sign_up?locale=pt), os resultados que eles conseguem são surpreendentes. Gostaria muito de saber como eles chegaram nesse patamar.

      Grande abraço!

      #38098
      Dalton Vargas
      Moderador

        Olá Ilton!

        De acordo com a documentação do Vosk é sugerido algumas verificações:

        • o áudio deve estar em boa qualidade;
        • as condições de áudio, como sotaque, realmente não foram as usadas no treinamento do modelo;
        • problemas de áudio imprevisíveis, como queda de quadro ou bugs de codificação de quadro;
        • erros de software.

        Dito isto, você também pode tentar implementar algumas das técnicas de pré-processamento de áudio demonstradas aqui no curso, principalmente nas técnicas utilizadas no exemplo de treinamento do modelo de reconhecimento de comandos básicos.

      Visualizando 2 posts - 1 até 2 (de 2 do total)
      • Você deve fazer login para responder a este tópico.