Mineração de dados

Visualizando 4 posts - 1 até 4 (de 4 do total)
  • Autor
    Posts
  • #21798

    Olá Jones, tudo bem?

    Dentro do processo de mineração de dados, quais seriam os aspectos mais importantes, que devemos observar para a limpeza e preparação de dados para o métodos preditivos?

    #21818
    Fábio Spak
    Participante

      Boa noite Carlos, o pontos importantes podem variar de acordo com o objetivo do seu projeto, veja alguns na lista baixo:

      • Valores ausentes, do tipo NaN, os quais você pode preencher manualmente se o o conjunto de dados for pequeno.
      • Ainda no caso dos valores ausentes, você pode utilizar a média para preencher a lacuna. Ou criar uma nova categoria “desconhecidos”.
      • Dados ruidosos.
      • Dados inválidos .
      • Valores duplicados/redundantes ou irrelevantes.
      • Erros estruturais, como por exemplo: digitação incorreta, mesmo atributo com nomes diferentes, classes mal rotuladas.

      Fabio

      #21819

      Olá Fábio,

      Obrigado pelos esclarecimentos.

      Tenho alguma dificuldade com o PANDAS.

      Há algum material (livro, artigo ou mesmo aqui na plataforma) com uma espécie de “check-list” com os comandos e métodos para limpeza de dados utilizando a biblioteca?

      Obrigado mais uma vez!

      #21820
      Fábio Spak
      Participante

        Boa noite Carlos, especificamente do pandas ainda não, somente os conteúdos que são abordados na vídeo aula. Entretanto, pesquisando encontrei alguns exemplos adicionais nos artigos abaixo:

        https://www.analyticsvidhya.com/blog/2020/09/pandas-speed-up-preprocessing/

        https://medium.com/@sbhavna80/data-preprocessing-using-scikit-learn-and-pandas-7ca1c37f992d

        https://www.kdnuggets.com/2019/11/data-cleaning-preprocessing-beginners.html

        Fabio

         

      Visualizando 4 posts - 1 até 4 (de 4 do total)
      • Você deve fazer login para responder a este tópico.