Home › Forums › Fórum Deep Learning com Python de A a Z: O Curso Completo › Apagar ou preencher com o valor mais recorrente no pré-processamento?
- This topic has 1 reply, 2 voices, and was last updated 3 years, 4 months ago by
Denny Ceccon.
- AuthorPosts
- 27 de janeiro de 2023 at 14:36 #39118
Eu fiquei com uma dúvida de como saber se o mais adequado seria apagar os registros com os valores NaN ou preencher com o registro da coluna mais frequente na base. Há alguma regra geral para isso? Ou o mais adequado mesmo seria testar os dois casos e verificar qual tem um melhor desempenho?
Por exemplo, o ideal não seria fazer esse preenchimento em bases menores para não perder dados e em bases maiores como essa dos carros usados (possui mais de 300 mil registros) fazer a exclusão desses registros?
28 de janeiro de 2023 at 10:21 #39126Olá Vinícius,
Não existe uma regra geral, pois a princípio a gente não sabe qual a relevância da variável ou do registro na modelagem do problema. Em ciência de dados, muitas vezes nos vemos obrigados a testar mais de uma abordagem e escolher a melhor a posteriori, com base nos resultados de desempenho do modelo criado.
Mas o que você falou sobre o tamanho da base é relevante. Se o número de registros apagados for pequeno em comparação ao tamanho da base, eu geralmente escolho como primeira opção apagar o registro.
- AuthorPosts
- You must be logged in to reply to this topic.
