Como usar gravações longas para treinar um modelo do zero

Marcado: Canto de pássaros 5 (Classificação de sons com YAMNet)

Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 2 anos, 8 meses atrás por Dalton Vargas.

Visualizando 2 posts - 1 até 2 (de 2 do total)

Autor
Posts
17 de outubro de 2022 às 19:54 #37589
Nelson Buainain Neto
Participante
olá,
Estou tentando usar a base de dados dos pássaros para treinar uma rede do zero, semelhante à realizada na sessão de “emoções pela fala”. No entanto, uma diferença, como ressaltado na própria aula, é que no conjunto de pássaros temos gravações longas com períodos de silencio e ruído entre as vocalizações, enquanto no dataset de fala e nos demais, já temos os clips curtos de cada gravação.
Minha pergunta é como lidar com essas gravações longas na hora de treinar uma rede do zero somente com o Keras, isto é, sem usar o YAMNet no TensorFlow. Existe alguma forma de usar as janelas deslizantes pra fazer como se fossem sub-amostras dentro da gravação longa? Pelo que entendi no TF com TAMNet voce tratou isso com a seguinte linha de código:
spec = audio_classifier.YamNetSpec(keep_yamnet_and_custom_heads=True,
frame_step = 3 * audio_classifier.YamNetSpec.EXPECTED_WAVEFORM_LENGTH,
frame_length = 6 * audio_classifier.YamNetSpec.EXPECTED_WAVEFORM_LENGTH)

Como fazer algo semelhante quando estamos trabalhando somente com o Keras?

Muito obrigado
18 de outubro de 2022 às 18:00 #37597
Dalton Vargas
Moderador
Olá Nelson!
A biblioteca librosa possue a função librosa.effects.trim para remover o silêncio em arquivos de áudio.
Sobre sua outra pergunta, em ‘como lidar com gravações longas utilizando a mesma estratégia de janelas deslizantes’, mais a frente aqui no curso tem um exemplo que trata exatamente isso. É um conteúdo complementar, segue o link da aula: Complementar: previsão por frames
Autor
Posts

Visualizando 2 posts - 1 até 2 (de 2 do total)

Você deve fazer login para responder a este tópico.