Home › Fóruns › Fórum Classificação de Áudio com Python: O Guia Completo › Reconhecimento de Fala
- Este tópico contém 7 respostas, 2 vozes e foi atualizado pela última vez 5 meses, 2 semanas atrás por Dalton Vargas.
- AutorPosts
- 10 de junho de 2024 às 17:28 #45389
Um vez capturado e armazenado em um dataset as variáveis data_audio, sample_rate, mfccs40, dentre outras. Onde para cada linha do conjunto de dados atribui um variável autor, que contem o responsável pelo audio gravado. Como posso fazer para “reconhecer” um autor, assim como fazemos para reconhecer uma face?
11 de junho de 2024 às 08:27 #45393Olá Cesar,
O conjunto de dados que você mencionou é o RAVDESS? Se sim, o ator neste dataset identifica se é homem ou mulher:
- Ator (01 a 24. Os atores com números ímpares são homens, os atores com números pares são mulheres).
Em resumo, a mudança que você precisa fazer utilizando o mesmo script da classificação de emoção, é definir o atributo ator como classe. Por exemplo:
X = np.array(extracted_features_df[‘feature’].tolist())
y = np.array(df.actors.tolist())
O restante do script permanece inalterado, exceto pela definição da estrutura da rede neural, onde sugiro que você experimente e ajuste conforme necessário. Pode ser que uma estrutura menos complexa seja suficiente, já que a classificação envolve apenas duas classes (feminino e masculino).
11 de junho de 2024 às 10:26 #45394Olá Danton,
Vou descrever um pouco mais o dataset e o problema para melhor entendimento.
Com base neste capitulo, construi um programa para armazenar as vozes de diversas pessoas e armazenei no dataset
dataset: voz
Estrutura -> id: dt_cadastro: nm_usuario: mfccs20: mfccs40: mfccs_scale_features
Minha questão é, Como faço para identificar “Reconhecer” uma voz, caso as informações estejam no dataset?
12 de junho de 2024 às 08:17 #45400Certo Cesar,
Se você tem o identificador da voz anotado em seu dataset, então a ideia é a mesma que mencionei acima. Você usa a classe que identifica a voz para treinar seu modelo.
18 de junho de 2024 às 16:35 #45448Obrigado Dalton,
Funcionou perfeitamente.
20 de junho de 2024 às 07:38 #45458Perfeito Cesar! Que bom que deu certo.
20 de junho de 2024 às 11:50 #45467Oi Dalton,
Veja se consegue tirar uma dúvida.
Quando da classificação, sempre retorna uma array onde a soma das predições chega a 100%. Correto?
No caso de um som que que não esteja classificado pelo modelo e que será objeto da predição, como fornecer um resultado informando que o objeto não está contido na base?
Deu para entender a dúvida?
21 de junho de 2024 às 09:02 #45473Entendi.
O modelo sempre tentará classificar todas as ocorrências de som. Isso significa que, mesmo para sons desconhecidos, ele tentará atribuir uma classificação à classe mais correspondente. O modelo recebe um fluxo contínuo de informações ao longo da onda sonora e aplica uma classificação para cada janela de som. Para que uma classificação seja desconsiderada, ela deve ser menor que um limiar pré-definido. No entanto, isso não significa que o som não foi classificado, apenas que a classificação foi inferior ao limiar. Você pode considerar que os sons com classificações inferiores ao limiar sejam desconhecidos.
- AutorPosts
- Você deve fazer login para responder a este tópico.