Home › Fóruns › Fórum Machine Learning e Data Science com Python de A à Z › Mineração de dados
- Este tópico contém 3 respostas, 2 vozes e foi atualizado pela última vez 4 anos, 1 mês atrás por Fábio Spak.
- AutorPosts
- 26 de outubro de 2020 às 15:34 #21798
Olá Jones, tudo bem?
Dentro do processo de mineração de dados, quais seriam os aspectos mais importantes, que devemos observar para a limpeza e preparação de dados para o métodos preditivos?
28 de outubro de 2020 às 00:36 #21818Boa noite Carlos, o pontos importantes podem variar de acordo com o objetivo do seu projeto, veja alguns na lista baixo:
- Valores ausentes, do tipo NaN, os quais você pode preencher manualmente se o o conjunto de dados for pequeno.
- Ainda no caso dos valores ausentes, você pode utilizar a média para preencher a lacuna. Ou criar uma nova categoria “desconhecidos”.
- Dados ruidosos.
- Dados inválidos .
- Valores duplicados/redundantes ou irrelevantes.
- Erros estruturais, como por exemplo: digitação incorreta, mesmo atributo com nomes diferentes, classes mal rotuladas.
Fabio
28 de outubro de 2020 às 08:36 #21819Olá Fábio,
Obrigado pelos esclarecimentos.
Tenho alguma dificuldade com o PANDAS.
Há algum material (livro, artigo ou mesmo aqui na plataforma) com uma espécie de “check-list” com os comandos e métodos para limpeza de dados utilizando a biblioteca?
Obrigado mais uma vez!
28 de outubro de 2020 às 22:49 #21820Boa noite Carlos, especificamente do pandas ainda não, somente os conteúdos que são abordados na vídeo aula. Entretanto, pesquisando encontrei alguns exemplos adicionais nos artigos abaixo:
https://www.analyticsvidhya.com/blog/2020/09/pandas-speed-up-preprocessing/
https://medium.com/@sbhavna80/data-preprocessing-using-scikit-learn-and-pandas-7ca1c37f992d
https://www.kdnuggets.com/2019/11/data-cleaning-preprocessing-beginners.html
Fabio
- AutorPosts
- Você deve fazer login para responder a este tópico.