Home › Fóruns › Fórum Classificação de Áudio com Python: O Guia Completo › amplitude_to_db no gráfico mas no modelo não
- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 2 anos, 5 meses atrás por
Dalton Vargas.
- AutorPosts
- 11 de outubro de 2022 às 18:00 #37306
Olá,
Queria entender melhor porque quando plotamos o espectrograma usamos a função amplitude_to_db mas quando preparamos os dados para o modelo não. Pelo que eu entendi é para visualização favorecer as frequência mais audíveis ao ouvido humano, é isso mesmo? Quando treinamos também não existe esse interesse? Afinal, não é por esse motivo que é usada a escala de mel (MFCC)?
Obrigado,
Abraço
12 de outubro de 2022 às 09:52 #37313Oi Nelson!
A ideia em converter para dB é justamente isso: Ao invés de fazermos uma comparação linearmente, estamos fazendo logaritmicamente. Ao invés de compararmos as unidades, comparamos os decibeis das unidades, pois a percepção sensorial humana da diferença entre algumas grandezas e fenômenos que encontramos no mundo não funciona linearmente, e sim logaritmicamente, então percebemos mudanças logaritmicas como se elas fossem lineares.
Por exemplo:
* Duas pessoas conversando: 50dB SPL
* Rua com tráfego barulhento: 85dB SPL
* Sirene: 120dB SPL
Diferenças:
* Entre a rua e as pessoas conversando: 35dB SPL
* A sirene e a rua barulhenta: 35dB SPL
* A sirene e as pessoas conversando: 60dB SPL
Considerando a explicação acima, quando usamos MFCC, a ideia central é que a escala mel é uma escala de transformação não linear onde transforma a faixa de frequência do áudio em uma faixa de valor diferente – cuja diferença soaria idêntica ao usuário final, independentemente dos valores. Usamos dB apenas para melhorar a representação visual do resultado, trabalhando com escalas logarítmicas. A explicação mais detalhada sobre MFCCs está na aula Carregamento e Processamento de Áudio / Coeficientes Cepstral de Frequência Mel (MFCC).
- AutorPosts
- Você deve fazer login para responder a este tópico.