O que você aprenderá
- Como trabalhar com bases de dados específicas para competições Kaggle
- Como resolver problemas de recuperação de informação, regressão e diagnóstico por imagens para ajudar a comunidade científica na pandemia de COVID-19
- Desenvolva insights que permitam construir modelos de Machine Learning aplicados em problemas reais
- Aprenda exploração de dados voltados para desafios reais
- Crie vários tipos de gráficos para ajudar na compreensão e análise dos dados
- Utilize técnicas modernas para recuperação de informações em documentos de texto
- Utilize regressão para prever o número de mortes por COVID-19
- Utilize técnicas modernas de deep learning; como redes neurais convolucionais e transfer learning, para diagnosticar pacientes com COVID-19 utilizando imagens de Raio X
Requisitos
- Familiaridade com os conceitos básicos e algoritmos de Machine Learning
- Lógica de programação, principalmente estruturas condicionais e de repetição
- Programação básica em Python
Descrição
De acordo com o CDC (Centers for Disease Control and Prevention), o novo coronavírus de 2019 é um vírus identificado como a causa de um surto de doença respiratória detectado pela primeira vez em Wuhan, na China. Desde o início, muitos dos pacientes do surto em Wuhan teriam algum vínculo com um grande mercado de frutos do mar e animais silvestres. Um número crescente de pacientes supostamente não teve exposição ao mercado de animais, indicando a ocorrência de disseminação de pessoa para pessoa. O vírus já se espalhou para praticamente todos os países do mundo, causando muitas mortes e sérios problemas na economia. Devido a isso, a Casa Branca dos Estados Unidos junto com pesquisadores e líderes do Allen Institute for AI, Chan Zuckerberg Initiative (CZI), Georgetown University’s Center for Security and Emerging Technology (CSET), Microsoft, e o National Library of Medicine (NLM) at the National Institutes of Health lançaram uma base de dados com artigos publicados sobre o COVI-19, SARS-CoV-2 e vírus do grupo dos coronavírus.
A base de dados possui mais de 30.000 artigos científicos sobre essas doenças, sendo que o objetivo principal é ajudar pesquisadores e profissionais da saúde obterem informações relevantes sobre esses assuntos. Leia alguns trechos do chamado (call to action) da Casa Branca: “A Casa Branca se une a essas instituições ao emitir um apelo à ação dos especialistas em inteligência artificial da nação para desenvolver novas técnicas de mineração de texto e dados que podem ajudar a comunidade científica a responder perguntas científicas de alta prioridade relacionadas ao COVID-19“, “Precisamos nos unir como empresas, governos e cientistas e trabalhar para trazer nossas melhores tecnologias para a biomedicina, epidemiologia, IA e outras ciências. O recurso e desafio da literatura COVID-19 estimulará esforços que podem acelerar o caminho para soluções em COVID-19“, “Uma das aplicações mais imediatas e impactantes da IA é a capacidade de ajudar cientistas, acadêmicos e tecnólogos a encontrar as informações corretas em um mar de artigos científicos para impulsionar a pesquisa mais rapidamente“, “É difícil para as pessoas revisarem manualmente mais de 20.000 artigos e sintetizarem suas descobertas. Avanços recentes em tecnologia podem ser úteis aqui“.
Como essa base de dados foi postada como um desafio no Kaggle, é uma ótima oportunidade para testar as habilidades adquiridas em cursos iniciais, e ainda aprender novas habilidades necessárias para resolver problemas reais. Entretanto, fazer essa transição entre um ambiente educacional e aquele que encontramos no Kaggle, que imita os desafios que devemos encontrar no mercado de trabalho, tende a ser um degrau muito grande, pois a natureza dos dados e dos problemas propostos aumenta de complexidade num nível que os cursos básicos não contemplam. Pensando nisso, este curso tem o objetivo de preencher essa lacuna na formação dos cientistas de dados, mostrando detalhadamente como abordar os desafios, passando pelas fases de exploração e tratamento de dados, escolha de abordagem de solução, construção de um modelo, treinamento e validação. O entendimento desse processo é o primeiro passo para que os competidores possam desenvolver melhorias e começar sua escalada rumo ao topo dos rankings.
Além da base de dados descrita acima, neste curso também focaremos em mais duas bases de dados relacionadas ao COVID-19. Com isso, o curso está dividido em três partes:
- Recuperação de informações de bases de dados de artigos: vamos usar a base de dados dos artigos científicos e aplicar várias técnicas de mineração de textos e processamento de linguagem natural, utilizando bibliotecas como NLTK (Natural Language Toolkit, spaCy, WordCloud e fuzzywuzzy. Focaremos na etapa de preparação e visualização dos textos, como por exemplo: contagem de termos frequentes, nuvem de palavras e aplicação de algoritmos para agrupamento, como o k-means! Implementaremos também sistemas de busca em textos que levam em consideração palavras-chave e similaridade entre documentos utilizando TF-IDF (Term Frequency – Inverse Documento Frequency)
- Previsões de mortes por COVID-19: utilizaremos outra base de dados do Kaggle para prever as mortes diárias, utilizando algoritmos de regressão
- Diagnóstico de pacientes com COVID-19 por meio do Raio-X do tórax: vamos utilizar modernas técnicas de Deep Learning com o TensorFlow 2.0, ou seja, redes neurais convolucionais e transferência de aprendizagem (transfer learning) para classificar imagens de pacientes doentes e saudáveis!
Os códigos serão desenvolvidos utilizando a linguagem Python linha por linha e com o Google Colab, de forma que você entenda todas as análises necessárias para participar dessas competições!
Para quem é este curso
- Pessoas que já estejam num nível intermediário de sua formação em Ciência de Dados, e que agora estejam procurando aprender a usar suas habilidades em desafios reais
- Analistas de dados que queiram aumentar seu conhecimento na área de Machine Learning
- Alunos de graduação que estão estudando disciplinas ligadas a área de Inteligência Artificial
- Qualquer pessoa interessada em Inteligência Artificial
Muito boa a explicação.