Respostas no Fórum
- AutorPosts
Olá Jose!
Para identificar a voz de cada pessoa, sugiro treinar um algoritmo de classificação/reconhecimento de vozes. Em resumo, você terá de criar uma base de dados com a voz da pessoa que você deseja reconhecer (quanto maior a quantidade de áudios, melhor será o resultado da classificação) e outra com vozes de diferente pessoas, realizar todas as etapas de treinamento e avaliação do modelo. Feito isso, você pode iniciar este processo de reconhecimento detectando se o som ambiente são de pessoas falando e depois aplicar seu modelo de reconhecimento de voz.
Olá José!
Se você tiver acesso remoto a alguma máquina ou VM, pode deixar seu código executando lá. Outra opção seria locar uma VM da Amazon ou mesmo o Google Colab Pro, com isso pode deixar o script rodando sem perder a sessão.
9 de fevereiro de 2023 às 16:57 em resposta a: Erro na reprodução de áudios MP3 ao executar assistente virtual #39581Olá Michael!
Seguem algumas sugestões:
Verificar se o path até estes arquivos de áudio estão corretos. Quando o código é executado no módulo playsound, ele não reconhece o caminho relativo que você inseriu. Em vez disso, tente inserir o caminho absoluto até o arquivo:
import os from playsound import playsound current_dir = os.getcwd() file_path = current_dir + '/pasta_dos_arquivos/n1.mp3' playsound(file_path)
Ah sim, perfeito Crhisângela! Que bom que deu certo.
Obrigado por compartilhar a solução!
7 de fevereiro de 2023 às 08:34 em resposta a: Erro na reprodução de áudios MP3 ao executar assistente virtual #39553Olá Michael!
Seguem algumas sugestões:
- Verificar se o path até estes arquivos de áudio estão corretos. Quando o código é executado no módulo playsound, ele não reconhece o caminho relativo que você inseriu. Em vez disso, tente inserir o caminho absoluto até o arquivo:
import os from playsound import playsound current_dir = os.getcwd() file_path = current_dir + '/pasta_dos_arquivos/n1.mp3' playsound(file_path)
Olá Michael!
Neste caso sugiro usar outro modelo para reconhecimento da fala, como por o exemplo o Vosk. Com ele você consegue adicionar ao modelo termos específicos para serem reconhecidos.
Segue o link do projeto:
https://alphacephei.com/vosk/models
Também aqui na plataforma termos um módulo do curso Classificação de Áudio com Python: O Guia Completo sobre como utilizar o modelo Vosk, vale a pena conferir.
Olá Crhisângela!
Poderia realizar algumas verificações:
- Qual a versão do librosa você está usando? No curso usamos a 0.8.1.
- Você está usando o Colab para implementar? Tente importar a biblioteca novamente, por favor.
- Executando este comando librosa.util.list_examples() retorna a lista de exemplos disponíveis?
Olá Jefferson!
Conforme a mensagem de erro está indicando, tem uma vírgula sobrando bem no final, antes de fechar o parênteses.
Olá Jefferson!
É isso mesmo que você falou, há um erro de sintaxe no código. Ali onde você está atribuindo a variável planilha_agenda, você deve deixar o caminho até o arquivo entre aspas simples conforme o exemplo abaixo:
planilha_agenda = 'C:/Users/Usuario/Desktop/Virtual Assistent/Curso/agenda.xlsx'
Olá!
Bem legal seu projeto, parabéns pela ideia!
Existem trabalhos bem interessantres neste contexto de geração de música utilizando Deep Learning. Separei alguns deles, segue abaixo os links:
Generating Music Using Deep Learning
Music Generation using Deep Learning
Using TensorFlow 2.0 to Compose Music Tutorial
A Hands-On Guide to Automatic Music Generation using RNN
Music Generation Using Deep Learning
Sobre a mentoria, podemos tratar via e-mail ou skype: daltonluizvargas@hotmail.com
27 de dezembro de 2022 às 08:01 em resposta a: Requerimento de argumento posicional – texto = r.record(source) #38797Olá Ivan!
Pelo script que você mandou, o primeiro problema que consegui identificar é na identação. Segue o script desta parte, se puder testar e comparar com o seu:
import speech_recognition as sr print('Versão SpeechRecognition versão:', sr.__version__) audio_source = '/content/O sistema solar.wav' audio = sr.AudioFile(audio_source) r = sr.Recognizer()
with audio as source: # Usar record() para capturar dados de um arquivo # duration: interrompe a gravação após um número especificado de segundos. # offset: representa o número de segundos desde o início do arquivo a ser ignorado # antes de iniciar a gravação. texto = r.record(source) r.recognize_google(texto, language='pt-BR')
Olá Pedro!
Normalmente o erro -215:Assertion failed ocorre quando o algoritmo não encontra a imagem para processar, ou seja, deve ter ocorrido um erro de carregamento de imagem passada como parâmetro para estas funções.
Poderia compartilhar seu script completo? Assim consigo verificar e testar.
- Esta resposta foi modificada 2 anos, 5 meses atrás por
Dalton Vargas.
Olá Ilton!
De acordo com a documentação do Vosk é sugerido algumas verificações:
- o áudio deve estar em boa qualidade;
- as condições de áudio, como sotaque, realmente não foram as usadas no treinamento do modelo;
- problemas de áudio imprevisíveis, como queda de quadro ou bugs de codificação de quadro;
- erros de software.
Dito isto, você também pode tentar implementar algumas das técnicas de pré-processamento de áudio demonstradas aqui no curso, principalmente nas técnicas utilizadas no exemplo de treinamento do modelo de reconhecimento de comandos básicos.
Olá Renilson!
Acredito que a melhor solução seria desenvolver um aplicativo. Neste caso você precisará de uma IDE para desenvolvimento mobile, como por exemplo o Android Studio.
Segue o link de alguns artigos que podem lhe ajudar:
Olá Renato!
Certo, a ideia é essa mesmo que você mencionou, faz um load_model. Segue abaixo um exemplo de função que você poderá usar para a maioria dos modelos criados aqui no curso:
# Vetor para indicar qual modelo iremos carregar MODEL_TYPES = ['SOM', 'EMOÇÃO'] # Função para carregar o modelo def load_model_by_name(model_type): if model_type == MODEL_TYPES[0]: model = tf.keras.models.load_model('models/ambient_sound_classification.hdf5') model_dict = sorted(list(['ar_condicionado', 'buzina_de_carro', 'crianca_brincando', 'latido_de_cachorro', 'perfuracao', 'motor_em_marcha_lenta', 'tiro_de_arma', 'britadeira', 'sirene', 'musica_de_rua'])) SAMPLE_RATE = 44100 # taxa de amostragem do modelo criado return model, model_dict, SAMPLE_RATE
- Verificar se o path até estes arquivos de áudio estão corretos. Quando o código é executado no módulo playsound, ele não reconhece o caminho relativo que você inseriu. Em vez disso, tente inserir o caminho absoluto até o arquivo:
- AutorPosts