Home › Fóruns › Fórum Classificação de Áudio com Python: O Guia Completo › Como usar gravações longas para treinar um modelo do zero
- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 2 anos, 3 meses atrás por
Dalton Vargas.
- AutorPosts
- 17 de outubro de 2022 às 19:54 #37589
olá,
Estou tentando usar a base de dados dos pássaros para treinar uma rede do zero, semelhante à realizada na sessão de “emoções pela fala”. No entanto, uma diferença, como ressaltado na própria aula, é que no conjunto de pássaros temos gravações longas com períodos de silencio e ruído entre as vocalizações, enquanto no dataset de fala e nos demais, já temos os clips curtos de cada gravação.
Minha pergunta é como lidar com essas gravações longas na hora de treinar uma rede do zero somente com o Keras, isto é, sem usar o YAMNet no TensorFlow. Existe alguma forma de usar as janelas deslizantes pra fazer como se fossem sub-amostras dentro da gravação longa? Pelo que entendi no TF com TAMNet voce tratou isso com a seguinte linha de código:
spec = audio_classifier.YamNetSpec(keep_yamnet_and_custom_heads=True,
frame_step = 3 * audio_classifier.YamNetSpec.EXPECTED_WAVEFORM_LENGTH,
frame_length = 6 * audio_classifier.YamNetSpec.EXPECTED_WAVEFORM_LENGTH)Como fazer algo semelhante quando estamos trabalhando somente com o Keras?
Muito obrigado
18 de outubro de 2022 às 18:00 #37597Olá Nelson!
A biblioteca librosa possue a função librosa.effects.trim para remover o silêncio em arquivos de áudio.
Sobre sua outra pergunta, em ‘como lidar com gravações longas utilizando a mesma estratégia de janelas deslizantes’, mais a frente aqui no curso tem um exemplo que trata exatamente isso. É um conteúdo complementar, segue o link da aula: Complementar: previsão por frames
- AutorPosts
- Você deve fazer login para responder a este tópico.