AULA BASE DE DADOS CENSUS | IA Expert Academy

Tagged: Base de dados do censo (Pré-processamento com pandas e sklearn)

This topic has 1 reply, 2 voices, and was last updated 3 years, 11 months ago by Denny Ceccon.

Viewing 2 posts - 1 through 2 (of 2 total)

Author

Posts
27 de agosto de 2022 at 13:47 #36513
adautosalmeida
Participant
Boa tarde, na aula onde iniciamos com a base de dados census, o professor diz não haver nenhuma inconsistência e de fato no código dele não há, porem ao checar aqui eu encontrei uma inconsistência do tipo NaN na linha 25564, coluna ‘income’. Tentei preencher com a média como foi ensinado porem não deu pois a coluna ‘income’ é do tipo object, tentei converter para o tipo int o que também me gerou um erro creio que por essa coluna também possuir os caracteres ‘<=’ junto ao valor do salario.

Minha questão é: como eu resolvo essa inconsistência?

Terei que preencher manualmente? Se sim como faço.

E se fosse varias inconsistências desse tipo como se resolveria de forma mais automatizada?

Sem mais obrigado
29 de agosto de 2022 at 12:37 #36523
Denny Ceccon
Moderator
Olá Adauto,

No caso de valores categóricos, você pode optar por usar o valor mais frequente. Você descobre isso selecionando a coluna e usando o método value_counts:

base_census['income'].value_counts()

Neste caso, o valor mais frequente é “<=50K”.

Então, você filtra a coluna para os valores faltantes e passa o novo valor:

base_census['income'][base_census['income'].isna()] = "<=50K"
Author

Posts

Viewing 2 posts - 1 through 2 (of 2 total)

You must be logged in to reply to this topic.