Reconhecimento de Fala

Visualizando 8 posts - 1 até 8 (de 8 do total)
  • Autor
    Posts
  • #45389

    Um vez capturado e armazenado em um dataset as variáveis data_audio, sample_rate, mfccs40, dentre outras. Onde para cada linha do conjunto de dados atribui um variável autor, que contem o responsável pelo audio gravado. Como posso fazer para “reconhecer” um autor, assim como fazemos para reconhecer uma face?

    #45393
    Dalton Vargas
    Moderador

      Olá Cesar,

      O conjunto de dados que você mencionou é o RAVDESS? Se sim, o ator neste dataset identifica se é homem ou mulher:

      • Ator (01 a 24. Os atores com números ímpares são homens, os atores com números pares são mulheres).

      Em resumo, a mudança que você precisa fazer utilizando o mesmo script da classificação de emoção, é definir o atributo ator como classe. Por exemplo:

      X = np.array(extracted_features_df[‘feature’].tolist())

      y = np.array(df.actors.tolist())

      O restante do script permanece inalterado, exceto pela definição da estrutura da rede neural, onde sugiro que você experimente e ajuste conforme necessário. Pode ser que uma estrutura menos complexa seja suficiente, já que a classificação envolve apenas duas classes (feminino e masculino).

      #45394

      Olá Danton,

      Vou descrever um pouco mais o dataset e o problema para melhor entendimento.

      Com base neste capitulo, construi um programa para armazenar as vozes de diversas pessoas e armazenei no dataset

      dataset: voz

      Estrutura -> id: dt_cadastro: nm_usuario: mfccs20: mfccs40: mfccs_scale_features

      Minha questão é, Como faço para identificar “Reconhecer” uma voz, caso as informações estejam no dataset?

       

      #45400
      Dalton Vargas
      Moderador

        Certo Cesar,

        Se você tem o identificador da voz anotado em seu dataset, então a ideia é a mesma que mencionei acima. Você usa a classe que identifica a voz para treinar seu modelo.

        #45448

        Obrigado Dalton,

        Funcionou perfeitamente.

         

        #45458
        Dalton Vargas
        Moderador

          Perfeito Cesar! Que bom que deu certo.

          #45467

          Oi Dalton,

          Veja se consegue tirar uma dúvida.

          Quando da classificação, sempre retorna uma array onde a soma das predições chega a 100%. Correto?

          No caso de um som que que não esteja classificado pelo modelo e que será objeto da predição, como fornecer um resultado informando que o objeto não está contido na base?

          Deu para entender a dúvida?

          #45473
          Dalton Vargas
          Moderador

            Entendi.

            O modelo sempre tentará classificar todas as ocorrências de som. Isso significa que, mesmo para sons desconhecidos, ele tentará atribuir uma classificação à classe mais correspondente. O modelo recebe um fluxo contínuo de informações ao longo da onda sonora e aplica uma classificação para cada janela de som. Para que uma classificação seja desconsiderada, ela deve ser menor que um limiar pré-definido. No entanto, isso não significa que o som não foi classificado, apenas que a classificação foi inferior ao limiar. Você pode considerar que os sons com classificações inferiores ao limiar sejam desconhecidos.

          Visualizando 8 posts - 1 até 8 (de 8 do total)
          • Você deve fazer login para responder a este tópico.