- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 2 anos, 5 meses atrás por .
Visualizando 2 posts - 1 até 2 (de 2 do total)
Visualizando 2 posts - 1 até 2 (de 2 do total)
- Você deve fazer login para responder a este tópico.
Home › Fóruns › Fórum Machine Learning e Data Science com Python de A à Z › AULA BASE DE DADOS CENSUS
Boa tarde, na aula onde iniciamos com a base de dados census, o professor diz não haver nenhuma inconsistência e de fato no código dele não há, porem ao checar aqui eu encontrei uma inconsistência do tipo NaN na linha 25564, coluna ‘income’. Tentei preencher com a média como foi ensinado porem não deu pois a coluna ‘income’ é do tipo object, tentei converter para o tipo int o que também me gerou um erro creio que por essa coluna também possuir os caracteres ‘<=’ junto ao valor do salario.
Minha questão é: como eu resolvo essa inconsistência?
Terei que preencher manualmente? Se sim como faço.
E se fosse varias inconsistências desse tipo como se resolveria de forma mais automatizada?
Sem mais obrigado
Olá Adauto,
No caso de valores categóricos, você pode optar por usar o valor mais frequente. Você descobre isso selecionando a coluna e usando o método value_counts
:
base_census['income'].value_counts()
Neste caso, o valor mais frequente é “<=50K”.
Então, você filtra a coluna para os valores faltantes e passa o novo valor:
base_census['income'][base_census['income'].isna()] = "<=50K"