Base com dados categóricos | IA Expert Academy

Tagged: Departamento de marketing

This topic has 4 replies, 2 voices, and was last updated 5 years, 6 months ago by Fábio Spak.

Viewing 5 posts - 1 through 5 (of 5 total)

Author

Posts
12 de janeiro de 2021 at 17:25 #23429
Nelson
Participant
Boa tarde!

Nos vídeos do departamento de marketing utilizou -se de dados numéricos realizando o standardscaler para normalização.

No caso de uma base com dados categóricos (faixa de idade, gênero, UF, etc.) qual seria a melhor forma de se realizar as análises, bem como tratar/normalizar(se possível) antes de se rodar no k-means?

Obrigado.
12 de janeiro de 2021 at 22:09 #23435
Fábio Spak
Participant
Boa noite Nelson, você pode considerar as etapas:

Limpeza de Dados
Remoção de informações duplicadas/ausentes
Remoção de observações e erros irrelevantes
Remoção de colunas desnecessárias
Tratamento de dados inconsistentes
Tratamento de outliers e ruído

O método comum é normalizar a unidade de cada dimensão individualmente.

Aplique métodos de redução de dimensionalidade.

No artigo abaixo (fonte da resposta) você encontrar esse assunto um pouco mais sobre esse assunto:

https://www.edupristine.com/blog/k-means-algorithm

Assim como, nessa discussão você obter mais alguns insights:

https://datascience.stackexchange.com/questions/22/k-means-clustering-for-mixed-numeric-and-categorical-data

Fabio
12 de janeiro de 2021 at 23:14 #23443
Nelson
Participant
Obrigado pelo retorno.
No caso de base de dados com variáveis, por exemplo, faixa de idade, gênero, Estado e categoria S/N, normalmente é mais adequado, antes de rodar no k-means, utilizar o pd.get_dummies, o labelencoder ou mesmo o one hot encoding? Em cada variável poderia utilizar uma forma diferente? É necessário também transformar em array após o procedimento anterior?
Obrigado.
13 de janeiro de 2021 at 15:00 #23449
Nelson
Participant
Outra dúvida também em relação ao uso do PCA para geração da visualização posterior mostrada nos vídeos: seria necessário também, após o comando do pca.fit_transform , comandar o print(pca.explained_variance_ratio_.sum()) para verificar o quanto a redução da dimensionalidade ainda representa do original ou, nesse caso específico para geração do gráfico, não se faria necessário? Obrigado !
18 de janeiro de 2021 at 12:56 #27207
Fábio Spak
Participant
Boa tarde Nelson, segue a resposta do instrutor Denny Ceccon:

“Como só é possível aplicar o KMeans em dados numéricos, as variáveis categóricas têm sim que ser transformadas no tipo one-hot-encoding (que é a mesma coisa que faz a função pd.get_dummies). Não sei se é “necessário” transformar em array, mas certamente não prejudica, já que as bibliotecas de machine learning costumam trabalhar com arrays do numpy.
Visualizar o quanto o PCA representa dos dados originais é interessante sim, porque se este valor for muito baixo, então o gráfico acaba não sendo uma boa representação do problema, já que ainda há muita variabilidade nas outras dimensões do PCA que não são plotadas. A ideia de concentrar a variabilidade em poucas dimensões é justamente permitir a visualização em plots.”

Fabio
Author

Posts

Viewing 5 posts - 1 through 5 (of 5 total)

You must be logged in to reply to this topic.