Apagar ou preencher com o valor mais recorrente no pré-processamento?

Home Fóruns Fórum Deep Learning com Python de A a Z: O Curso Completo Apagar ou preencher com o valor mais recorrente no pré-processamento?

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #39118

    Eu fiquei com uma dúvida de como saber se o mais adequado seria apagar os registros com os valores NaN ou preencher com o registro da coluna mais frequente na base. Há alguma regra geral para isso? Ou o mais adequado mesmo seria testar os dois casos e verificar qual tem um melhor desempenho?

    Por exemplo, o ideal não seria fazer esse preenchimento em bases menores para não perder dados e em bases maiores como essa dos carros usados (possui mais de 300 mil registros) fazer a exclusão desses registros?

    #39126
    Denny Ceccon
    Moderador

      Olá Vinícius,

      Não existe uma regra geral, pois a princípio a gente não sabe qual a relevância da variável ou do registro na modelagem do problema. Em ciência de dados, muitas vezes nos vemos obrigados a testar mais de uma abordagem e escolher a melhor a posteriori, com base nos resultados de desempenho do modelo criado.

      Mas o que você falou sobre o tamanho da base é relevante. Se o número de registros apagados for pequeno em comparação ao tamanho da base, eu geralmente escolho como primeira opção apagar o registro.

    Visualizando 2 posts - 1 até 2 (de 2 do total)
    • Você deve fazer login para responder a este tópico.