Mineração de dados

Visualizando 4 posts - 1 até 4 (de 4 do total)
  • Autor
    Posts
  • #21798

    Olá Jones, tudo bem?

    Dentro do processo de mineração de dados, quais seriam os aspectos mais importantes, que devemos observar para a limpeza e preparação de dados para o métodos preditivos?

    #21818
    Fábio Spak
    Instrutor

    Boa noite Carlos, o pontos importantes podem variar de acordo com o objetivo do seu projeto, veja alguns na lista baixo:

    • Valores ausentes, do tipo NaN, os quais você pode preencher manualmente se o o conjunto de dados for pequeno.
    • Ainda no caso dos valores ausentes, você pode utilizar a média para preencher a lacuna. Ou criar uma nova categoria “desconhecidos”.
    • Dados ruidosos.
    • Dados inválidos .
    • Valores duplicados/redundantes ou irrelevantes.
    • Erros estruturais, como por exemplo: digitação incorreta, mesmo atributo com nomes diferentes, classes mal rotuladas.

    Fabio

    #21819

    Olá Fábio,

    Obrigado pelos esclarecimentos.

    Tenho alguma dificuldade com o PANDAS.

    Há algum material (livro, artigo ou mesmo aqui na plataforma) com uma espécie de “check-list” com os comandos e métodos para limpeza de dados utilizando a biblioteca?

    Obrigado mais uma vez!

    #21820
    Fábio Spak
    Instrutor

    Boa noite Carlos, especificamente do pandas ainda não, somente os conteúdos que são abordados na vídeo aula. Entretanto, pesquisando encontrei alguns exemplos adicionais nos artigos abaixo:

    https://www.analyticsvidhya.com/blog/2020/09/pandas-speed-up-preprocessing/

    https://medium.com/@sbhavna80/data-preprocessing-using-scikit-learn-and-pandas-7ca1c37f992d

    https://www.kdnuggets.com/2019/11/data-cleaning-preprocessing-beginners.html

    Fabio

     

Visualizando 4 posts - 1 até 4 (de 4 do total)
  • Você deve fazer login para responder a este tópico.