Curso Online Classificação de Áudio com Python: O Guia Completo

Seu Estado

Preço

Grátis

Comece Agora

Faça seu login

O que você aprenderá

Entender os principais conceitos relacionados à processamento de áudio, como: taxa de amostragem, amplitude, ondas, frequência, decibel, dentre outros
Visualizar o gráfico de onda e espectrogramas de arquivos de áudio
Classificar 10 categorias de sons ambientais: ar condicionado, buzina, crianças, latido, perfuração, motor, tiro de arma, britadeira, sirene e música de rua
Treinar a arquitetura YAMNet utilizando transferência de aprendizagem para classificar o canto de 5 espécies de pássaros
Treinar uma rede neural para classificar 8 comandos de voz
Transcrever áudios do WhatsApp
Como utilizar a Transformada de Fourier e o Coeficiente Cepstral de Frequência Mel (MFCC) para extrair características de áudios
Treinar redes neurais convolucionais com o TensorFlow para classificar diversos tipos de áudios
Utilizar a arquitetura YAMNet para classificar 521 eventos de áudio
Classificar 10 emoções pela fala: tristeza, surpresa, nojo, neutro, nervosismo, medo, felicidade e calmo
Transcrição de áudio utilizando a biblioteca SpeechRecognition

Pré-requisitos

Lógica de programação
Programação básica em Python
Conhecimentos sobre Machine Learning são desejáveis mas não obrigatórios

Descrição

A área de Processamento de Linguagem Natural – PLN (Natural Language Processing – NLP) é uma subárea da Inteligência Artificial que tem como objetivo tornar os computadores capazes de entender a linguagem humana, tanto escrita quanto falada. Alguns exemplo de aplicações práticas são: tradutores entre idiomas, tradução de texto para fala ou fala para texto, chatbots, sistemas automáticos de perguntas e respostas, sumarização de textos, geração automática de descrições para imagens, adição de legendas em vídeos, classificação de sentimentos em frases e áudios, dentre várias outras! Dentro desta área existe a classificação de áudio, que consiste em identificar sons específicos em áudios. Alguns exemplos são: identificação de sons do ambiente (carros, buzina, latidos, sirenes, etc), classificação de estilos musicais, transcrição de texto, reconhecimento de emoções pela fala e reconhecimento de comandos de voz, muito utilizado pelos assistentes virtuais.

Atualmente, o setor comercial está cada vez mais necessitando de soluções de Processamento de Linguagem Natural voltadas ao áudio, ou seja, aprender essa área pode ser a chave para trazer soluções reais para necessidades presentes e futuras. Baseado nisso, este curso foi projetado para quem deseja crescer ou iniciar uma nova carreira na área de Processamento de Linguagem Natural, trabalhando especificamente com a classificação de arquivos de áudio! O curso está dividido em sete partes:

Na parte 1 você aprenderá os conceitos teóricos sobre a área de áudio, como por exemplo: o que são sinais de áudio, sinal analógico e digital, amplitude, ondas, frequência, decibel, taxa de amostragem e principalmente, como representar o áudio para ser enviado para algoritmos de aprendizagem de máquina
Na parte 2 serão implementados na prática vários dos conceitos abordados na primeira parte! Alguns exemplos são: carregamento e execução de arquivos de áudio, separação harmônica-percursiva, sintetização de cliques, Transformada de Fourier, Coeficiente Cepstral de Frequência Mel e geração de gráfico de ondas e espectrogramas. Ao final deste módulo, você saberá como extrair dados dos áudios para envio para algoritmos de aprendizagem de máquina. Será utilizada a biblioteca Librosa
Na parte 3, vamos utilizar a base UrbanSound8K para classificar os seguintes sons ambientais: ar condicionado, buzina de carro, crianças brincando, latidos de cachorro, perfuração, motor em marcha lenta, tiros de arma, britadeira, sirene e música de rua. Faremos o treinamento de uma rede neural convolucional utilizando o TensorFlow, e ao final, vamos enviar um áudio e a rede neural será capaz de classificar qualquer uma dessas categorias
Na parte 4, vamos utilizar a arquitetura pré-treinada YAMNet para classificar 521 diferentes eventos de áudio! Logo após, utilizaremos transferência de aprendizagem para classificar o canto de 5 espécies diferentes de pássaros
Na parte 5 utilizarmos a base de dados RAVDESS para classificar as seguintes emoções de áudios: tristeza, surpresa, nojo, neutro, medo, felicidade e calmo
Na parte 6 você entenderá o básico sobre como funciona um assistente de voz! Por meio da base mini-speech-commands, vamos treinar uma rede neural para classificar 8 tipos diferentes de comandos
Por fim, na parte 7 utilizaremos a biblioteca SpeechRecognition para realizar a transcrição de áudio, ou seja, você fala e o algoritmo faz a transcrição em formato textual!

Todos os códigos serão implementados passo a passo, com detalhes e utilizando o Google Colab. Com isso, você não precisa se preocupar com instalações e configurações de softwares na sua própria máquina! São mais de 110 aulas e mais de 14 horas de vídeos passo a passo!

Para quem é este curso

Pessoas interessadas em classificação de áudio e processamento de linguagem natural
Alunos de graduação e pós-graduação que estejam cursando disciplinas sobre Inteligência Artificial
Cientistas de Dados que tenham interesse em aumentar seu portfólio de projetos

Publicado em junho de 2022

Média das avaliações:

★★★★★

Curso muito bom

Vanderlei de Jesus Teixeira em 23 de outubro de 2025 às 21:14

★★★★★

excelente

por

Comentário extraído do curso na Udemy em 17 de abril de 2025 às 00:08

★★★★★

por Demétrius Bicalho Félix de Almeida

Comentário extraído do curso na Udemy em 8 de abril de 2025 às 00:08

★★★★★

O instrutor realmente entende do assunto!

por Cristiano Gonçalves de Oliveira

Comentário extraído do curso na Udemy em 13 de março de 2024 às 00:08

★★★★★

Curso excelente que aborda tópicos relevantes.

Curso completo

Gabriel Palitot em 10 de dezembro de 2023 às 13:23

★★★★★

Gostei muito da estrutura e do que foi apresentado, pude aprender bastante no curso.

curso otimo, explica tudo.

Renilson em 6 de maio de 2023 às 17:11

★★★★★

gostei da didática.

por Filipe Fontinele de Almeida

Comentário extraído do curso na Udemy em 20 de abril de 2023 às 00:08

★★★★★

Ótimo!

por João Augusto Machado Coelho

Comentário extraído do curso na Udemy em 14 de março de 2023 às 00:08

★★★★★

Excelente Professor, didático e atencioso. Os conteúdos são excelentes, atuais e muito importantes para o mundo tecnológico ao qual estamos inseridos.

otimo

IA Medicine em 13 de março de 2023 às 22:05

★★★★★

otimo

por Ricardo duarte

Comentário extraído do curso na Udemy em 23 de fevereiro de 2023 às 00:08

★★★★★

Ótimo curso, o Professor tem uma boa didática, este curso vai ajudar muito a entender os conceitos iniciais desta área!!!

por Antônio Carlos Flach

Comentário extraído do curso na Udemy em 24 de novembro de 2022 às 00:08

★★★★★

O curso apresenta diversas aplicações de classificação de áudio, onde se acompanha o professor através do Google Colab. Há muitos pontos não explicados durante o curso, principalmente onde se mostra o código sem esclarecer devidamente sua utilidade e/ou funcionamento. Deveria também haver um anexo extra tratando dos tópicos de numpy, Pandas etc que são bastante utilizados no curso.

por Antônio Carlos Flach

Comentário extraído do curso na Udemy em 24 de novembro de 2022 às 00:08

★★★★★

por Paulo Cesar de Oliveira Franco

Comentário extraído do curso na Udemy em 1 de novembro de 2022 às 00:08

★★★★★

Muito bom

por Hariel Soares Maran

Comentário extraído do curso na Udemy em 12 de agosto de 2022 às 00:08

★★★★★

Muito bom o curso, pra eu que sou leigo no assunto, estou achando ótimo! professor fala de um jeito que conseguimos entender o assunto proposto, e superou as minhas expectativas.

por José Roberto Silva dos Santos

Comentário extraído do curso na Udemy em 23 de julho de 2022 às 00:08

★★★★★

Curso muito top! Parabéns cambada!

por Cid Ivan da Costa Carvalho

Comentário extraído do curso na Udemy em 12 de julho de 2022 às 00:08

★★★★★

Este curso é show de bola! O professor Jonas está de parabéns pela bela iniciativa.

por luiz iria de abbadia

Comentário extraído do curso na Udemy em 30 de junho de 2022 às 00:08

★★★★★

Excellent! All that I would like to know and is very hard to learn is now achievable!

por Bernardo Petry Salvador

Comentário extraído do curso na Udemy em 30 de junho de 2022 às 00:08

★★★★★

Ótimo em todos os aspectos

por Cleberson Henrique de Moura

Comentário extraído do curso na Udemy em 29 de junho de 2022 às 00:08

★★★★★

O professor parece dominar o assunto, é calmo e didático. Isso ajuda muito o aprendizado. Valeu a compra.

por Marco Antonio Paes

Comentário extraído do curso na Udemy em 28 de junho de 2022 às 00:08

★★★★★

O curso é completo e foi detalhado passo a passo para tornar sua compreensão fácil. A plataforma utilizada (google colab) também facilita muito ao evitar o trabalho de instalação das bibliotecas. Como nos outros cursos do prof. Jones, tudo foi feito com muito capricho.

por Léo Da Silva

Comentário extraído do curso na Udemy em 28 de junho de 2022 às 00:08

★★★★★

Um tema bem interessante que está sendo tratado. Parabéns pela iniciativa.