Home Forums Fórum Deep Learning com Python de A a Z: O Curso Completo Apagar ou preencher com o valor mais recorrente no pré-processamento?

Viewing 2 posts - 1 through 2 (of 2 total)
  • Author
    Posts
  • #39118

    Eu fiquei com uma dúvida de como saber se o mais adequado seria apagar os registros com os valores NaN ou preencher com o registro da coluna mais frequente na base. Há alguma regra geral para isso? Ou o mais adequado mesmo seria testar os dois casos e verificar qual tem um melhor desempenho?

    Por exemplo, o ideal não seria fazer esse preenchimento em bases menores para não perder dados e em bases maiores como essa dos carros usados (possui mais de 300 mil registros) fazer a exclusão desses registros?

    #39126
    Denny Ceccon
    Moderator

      Olá Vinícius,

      Não existe uma regra geral, pois a princípio a gente não sabe qual a relevância da variável ou do registro na modelagem do problema. Em ciência de dados, muitas vezes nos vemos obrigados a testar mais de uma abordagem e escolher a melhor a posteriori, com base nos resultados de desempenho do modelo criado.

      Mas o que você falou sobre o tamanho da base é relevante. Se o número de registros apagados for pequeno em comparação ao tamanho da base, eu geralmente escolho como primeira opção apagar o registro.

    Viewing 2 posts - 1 through 2 (of 2 total)
    • You must be logged in to reply to this topic.