Home › Forums › Fórum Machine Learning e Data Science com Python de A à Z › Tratamento de Valores inconsistentes e faltantes
- This topic has 4 replies, 2 voices, and was last updated 2 years, 8 months ago by
Denny Ceccon.
- AuthorPosts
- 14 de August de 2022 at 14:20 #36346
Existe algum padrão de ordem a ser seguido para identificar esses valores? Ou algum comando das bibliotecas que já possa ser aplicado logo na base para identifica-los? Pois nas aulas eles so foram percebidos depois que foi feito os primeiros gráficos. Em uma situação real de analise qual seria o passo a passo para realizar as operações?
14 de August de 2022 at 18:02 #36349Como por exemplo para os valores NaN eu rodei esse codigo e ele me retornou todos valores NaN da base:
base_credit[base_credit.isnull().any(axis=1)]
Existe algum nesse mesmo padrão que poderia identificar os outliers das idades negativas sem a necessidade de fazer os gráficos?
15 de August de 2022 at 15:21 #36354Olá Adauto,
Infelizmente não porque a própria definição de outlier é aberta a interpretações. Por exemplo, idades negativas certamente estão erradas, mas e se a variável permitisse valores negativos? Esta parte inicial de exploração dos dados fica a cargo do desenvolvedor e inclusive é essencial para o desenvolvimento de um bom projeto de Data Science.
15 de August de 2022 at 18:00 #36361Entendi, Denny.
De fato eu andei revisando os códigos e como estou tendo os primeiros contatos com DS, eu optei por “traçar um passo a passo”, com as possibilidades que foram passados nesses exemplos. Agora eu irei praticar e testar isso em outra base checando com esse meu “passo a passo”. Isso é só para eu realmente ter em mente as possibilidades e não deixar passar nada.
Obrigado
15 de August de 2022 at 19:13 #36362É um bom caminho Adauto, com a experiência você vai aprendendo a lidar com essas inconsistências de uma forma mais eficiente.
- AuthorPosts
- You must be logged in to reply to this topic.