Respostas no Fórum

Visualizando 15 posts - 61 até 75 (de 114 do total)
  • Autor
    Posts
  • em resposta a: Como extrair vozes separadas de audios…? #39622
    Dalton Vargas
    Moderador

      Olá Jose!

      Para identificar a voz de cada pessoa, sugiro treinar um algoritmo de classificação/reconhecimento de vozes. Em resumo, você terá de criar uma base de dados com a voz da pessoa que você deseja reconhecer (quanto maior a quantidade de áudios, melhor será o resultado da classificação) e outra com vozes de diferente pessoas, realizar todas as etapas de treinamento e avaliação do modelo. Feito isso, você pode iniciar este processo de reconhecimento detectando se o som ambiente são de pessoas falando e depois aplicar seu modelo de reconhecimento de voz.

      em resposta a: Demora no pré-processamento…? #39582
      Dalton Vargas
      Moderador

        Olá José!

        Se você tiver acesso remoto a alguma máquina ou VM, pode deixar seu código executando lá. Outra opção seria locar uma VM da Amazon ou mesmo o Google Colab Pro, com isso pode deixar o script rodando sem perder a sessão.

         

        em resposta a: Erro na reprodução de áudios MP3 ao executar assistente virtual #39581
        Dalton Vargas
        Moderador

          Olá Michael!

          Seguem algumas sugestões:

          Verificar se o path até estes arquivos de áudio estão corretos. Quando o código é executado no módulo playsound, ele não reconhece o caminho relativo que você inseriu. Em vez disso, tente inserir o caminho absoluto até o arquivo:

          import os
          from playsound import playsound
          current_dir = os.getcwd()
          file_path = current_dir + '/pasta_dos_arquivos/n1.mp3'
          playsound(file_path)
          em resposta a: problema example file do librosa #39554
          Dalton Vargas
          Moderador

            Ah sim, perfeito Crhisângela! Que bom que deu certo.

            Obrigado por compartilhar a solução!

            em resposta a: Erro na reprodução de áudios MP3 ao executar assistente virtual #39553
            Dalton Vargas
            Moderador

              Olá Michael!

              Seguem algumas sugestões:

              • Verificar se o path até estes arquivos de áudio estão corretos. Quando o código é executado no módulo playsound, ele não reconhece o caminho relativo que você inseriu. Em vez disso, tente inserir o caminho absoluto até o arquivo:
                • import os
                  from playsound import playsound
                  current_dir = os.getcwd()
                  file_path = current_dir + '/pasta_dos_arquivos/n1.mp3'
                  playsound(file_path)
                  
                  
              em resposta a: Reconhecimento de voz para termos específicos #39467
              Dalton Vargas
              Moderador

                Olá Michael!

                Neste caso sugiro usar outro modelo para reconhecimento da fala, como por o exemplo o Vosk. Com ele você consegue adicionar ao modelo termos específicos para serem reconhecidos.

                Segue o link do projeto:

                https://alphacephei.com/vosk/models

                Também aqui na plataforma termos um módulo do curso Classificação de Áudio com Python: O Guia Completo sobre como utilizar o modelo Vosk, vale a pena conferir.

                em resposta a: problema example file do librosa #39418
                Dalton Vargas
                Moderador

                  Olá Crhisângela!

                  Poderia realizar algumas verificações:

                  • Qual a versão do librosa você está usando? No curso usamos a 0.8.1.
                  • Você está usando o Colab para implementar? Tente importar a biblioteca novamente, por favor.
                  • Executando este comando librosa.util.list_examples() retorna a lista de exemplos disponíveis?
                  em resposta a: Aula Carregamento da agenda #38992
                  Dalton Vargas
                  Moderador

                    Olá Jefferson!

                    Conforme a mensagem de erro está indicando, tem uma vírgula sobrando bem no final, antes de fechar o parênteses.

                     

                    em resposta a: Carregamento da agenda #38977
                    Dalton Vargas
                    Moderador

                      Olá Jefferson!

                      É isso mesmo que você falou, há um erro de sintaxe no código. Ali onde você está atribuindo a variável planilha_agenda, você deve deixar o caminho até o arquivo entre aspas simples conforme o exemplo abaixo:

                      planilha_agenda = 'C:/Users/Usuario/Desktop/Virtual Assistent/Curso/agenda.xlsx'
                      em resposta a: Criação de software #38811
                      Dalton Vargas
                      Moderador

                        Olá!

                        Bem legal seu projeto, parabéns pela ideia!

                        Existem trabalhos bem interessantres neste contexto de geração de música utilizando Deep Learning. Separei alguns deles, segue abaixo os links:

                        Generating Music Using Deep Learning

                        Music Generation using Deep Learning

                        Using TensorFlow 2.0 to Compose Music Tutorial

                        A Hands-On Guide to Automatic Music Generation using RNN

                        Music Generation Using Deep Learning

                        Generate music with an RNN

                         

                        Sobre a mentoria, podemos tratar via e-mail ou skype: daltonluizvargas@hotmail.com

                         

                         

                        em resposta a: Requerimento de argumento posicional – texto = r.record(source) #38797
                        Dalton Vargas
                        Moderador

                          Olá Ivan!

                          Pelo script que você mandou, o primeiro problema que consegui identificar é na identação. Segue o script desta parte, se puder testar e comparar com o seu:

                          import speech_recognition as sr
                          print('Versão SpeechRecognition versão:', sr.__version__)
                          
                          audio_source = '/content/O sistema solar.wav'
                          audio = sr.AudioFile(audio_source)
                          
                          r = sr.Recognizer()
                          with audio as source:
                            # Usar record() para capturar dados de um arquivo
                              # duration: interrompe a gravação após um número especificado de segundos.
                              # offset: representa o número de segundos desde o início do arquivo a ser ignorado
                              # antes de iniciar a gravação.
                            texto = r.record(source)
                          
                          r.recognize_google(texto, language='pt-BR')
                          em resposta a: Error ao utilizar os Filter closing e opening #38099
                          Dalton Vargas
                          Moderador

                            Olá Pedro!

                            Normalmente o erro -215:Assertion failed ocorre quando o algoritmo não encontra a imagem para processar, ou seja, deve ter ocorrido um erro de carregamento de imagem passada como parâmetro para estas funções.

                            Poderia compartilhar seu script completo? Assim consigo verificar e testar.

                            • Esta resposta foi modificada 2 anos, 5 meses atrás por Dalton Vargas.
                            em resposta a: Vosk – Como Melhorar Acurácia da Transcrição #38098
                            Dalton Vargas
                            Moderador

                              Olá Ilton!

                              De acordo com a documentação do Vosk é sugerido algumas verificações:

                              • o áudio deve estar em boa qualidade;
                              • as condições de áudio, como sotaque, realmente não foram as usadas no treinamento do modelo;
                              • problemas de áudio imprevisíveis, como queda de quadro ou bugs de codificação de quadro;
                              • erros de software.

                              Dito isto, você também pode tentar implementar algumas das técnicas de pré-processamento de áudio demonstradas aqui no curso, principalmente nas técnicas utilizadas no exemplo de treinamento do modelo de reconhecimento de comandos básicos.

                              em resposta a: Como carregar modelo treinado? #38059
                              Dalton Vargas
                              Moderador

                                Olá Renilson!

                                Acredito que a melhor solução seria desenvolver um aplicativo. Neste caso você precisará de uma IDE para desenvolvimento mobile, como por exemplo o Android Studio.

                                Segue o link de alguns artigos que podem lhe ajudar:

                                em resposta a: Como carregar modelo treinado? #37864
                                Dalton Vargas
                                Moderador

                                  Olá Renato!

                                  Certo, a ideia é essa mesmo que você mencionou, faz um load_model. Segue abaixo um exemplo de função que você poderá usar para a maioria dos modelos criados aqui no curso:

                                  # Vetor para indicar qual modelo iremos carregar
                                  MODEL_TYPES = ['SOM', 'EMOÇÃO']
                                  
                                  # Função para carregar o modelo
                                  def load_model_by_name(model_type):
                                      if model_type == MODEL_TYPES[0]:
                                         model = tf.keras.models.load_model('models/ambient_sound_classification.hdf5')
                                         model_dict = sorted(list(['ar_condicionado', 'buzina_de_carro', 'crianca_brincando', 'latido_de_cachorro', 'perfuracao', 'motor_em_marcha_lenta', 'tiro_de_arma', 'britadeira', 'sirene', 'musica_de_rua']))
                                         SAMPLE_RATE = 44100 # taxa de amostragem do modelo criado
                                  
                                      return model, model_dict, SAMPLE_RATE

                                   

                                Visualizando 15 posts - 61 até 75 (de 114 do total)