Home › Fóruns › Fórum Classificação de Áudio com Python: O Guia Completo › amplitude_to_db no gráfico mas no modelo não › Responder a: amplitude_to_db no gráfico mas no modelo não
Oi Nelson!
A ideia em converter para dB é justamente isso: Ao invés de fazermos uma comparação linearmente, estamos fazendo logaritmicamente. Ao invés de compararmos as unidades, comparamos os decibeis das unidades, pois a percepção sensorial humana da diferença entre algumas grandezas e fenômenos que encontramos no mundo não funciona linearmente, e sim logaritmicamente, então percebemos mudanças logaritmicas como se elas fossem lineares.
Por exemplo:
* Duas pessoas conversando: 50dB SPL
* Rua com tráfego barulhento: 85dB SPL
* Sirene: 120dB SPL
Diferenças:
* Entre a rua e as pessoas conversando: 35dB SPL
* A sirene e a rua barulhenta: 35dB SPL
* A sirene e as pessoas conversando: 60dB SPL
Considerando a explicação acima, quando usamos MFCC, a ideia central é que a escala mel é uma escala de transformação não linear onde transforma a faixa de frequência do áudio em uma faixa de valor diferente – cuja diferença soaria idêntica ao usuário final, independentemente dos valores. Usamos dB apenas para melhorar a representação visual do resultado, trabalhando com escalas logarítmicas. A explicação mais detalhada sobre MFCCs está na aula Carregamento e Processamento de Áudio / Coeficientes Cepstral de Frequência Mel (MFCC).