Home › Fóruns › Fórum Deep Learning com Python de A a Z: O Curso Completo › Apagar ou preencher com o valor mais recorrente no pré-processamento?
- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 2 anos atrás por
Denny Ceccon.
- AutorPosts
- 27 de janeiro de 2023 às 14:36 #39118
Eu fiquei com uma dúvida de como saber se o mais adequado seria apagar os registros com os valores NaN ou preencher com o registro da coluna mais frequente na base. Há alguma regra geral para isso? Ou o mais adequado mesmo seria testar os dois casos e verificar qual tem um melhor desempenho?
Por exemplo, o ideal não seria fazer esse preenchimento em bases menores para não perder dados e em bases maiores como essa dos carros usados (possui mais de 300 mil registros) fazer a exclusão desses registros?
28 de janeiro de 2023 às 10:21 #39126Olá Vinícius,
Não existe uma regra geral, pois a princípio a gente não sabe qual a relevância da variável ou do registro na modelagem do problema. Em ciência de dados, muitas vezes nos vemos obrigados a testar mais de uma abordagem e escolher a melhor a posteriori, com base nos resultados de desempenho do modelo criado.
Mas o que você falou sobre o tamanho da base é relevante. Se o número de registros apagados for pequeno em comparação ao tamanho da base, eu geralmente escolho como primeira opção apagar o registro.
- AutorPosts
- Você deve fazer login para responder a este tópico.