Como usar gravações longas para treinar um modelo do zero

Home Fóruns Fórum Classificação de Áudio com Python: O Guia Completo Como usar gravações longas para treinar um modelo do zero

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #37589

    olá,

    Estou tentando usar a base de dados dos pássaros para treinar uma rede do zero, semelhante à realizada na sessão de “emoções pela fala”. No entanto, uma diferença, como ressaltado na própria aula, é que no conjunto de pássaros temos gravações longas com períodos de silencio e ruído entre as vocalizações, enquanto no dataset de fala e nos demais, já temos os clips curtos de cada gravação.

    Minha pergunta é como lidar com essas gravações longas na hora de treinar uma rede do zero somente com o Keras, isto é, sem usar o YAMNet no TensorFlow. Existe alguma forma de usar as janelas deslizantes pra fazer como se fossem sub-amostras dentro da gravação longa? Pelo que entendi no TF com TAMNet voce tratou isso com a seguinte linha de código:

    spec = audio_classifier.YamNetSpec(keep_yamnet_and_custom_heads=True,
    frame_step = 3 * audio_classifier.YamNetSpec.EXPECTED_WAVEFORM_LENGTH,
    frame_length = 6 * audio_classifier.YamNetSpec.EXPECTED_WAVEFORM_LENGTH)

     

    Como fazer algo semelhante quando estamos trabalhando somente com o Keras?

     

    Muito obrigado

    #37597
    Dalton Vargas
    Moderador

      Olá Nelson!

      A biblioteca librosa possue a função librosa.effects.trim para remover o silêncio em arquivos de áudio.

      Sobre sua outra pergunta, em ‘como lidar com gravações longas utilizando a mesma estratégia de janelas deslizantes’, mais a frente aqui no curso tem um exemplo que trata exatamente isso. É um conteúdo complementar, segue o link da aula: Complementar: previsão por frames

       

    Visualizando 2 posts - 1 até 2 (de 2 do total)
    • Você deve fazer login para responder a este tópico.