Home › Fóruns › Fórum Ciência de Dados para Empresas e Negócios › Base com dados categóricos
Marcado: Departamento de marketing
- Este tópico contém 4 respostas, 2 vozes e foi atualizado pela última vez 3 anos, 10 meses atrás por Fábio Spak.
- AutorPosts
- 12 de janeiro de 2021 às 17:25 #23429
Boa tarde!
Nos vídeos do departamento de marketing utilizou -se de dados numéricos realizando o standardscaler para normalização.
No caso de uma base com dados categóricos (faixa de idade, gênero, UF, etc.) qual seria a melhor forma de se realizar as análises, bem como tratar/normalizar(se possível) antes de se rodar no k-means?
Obrigado.
12 de janeiro de 2021 às 22:09 #23435Boa noite Nelson, você pode considerar as etapas:
Limpeza de Dados
Remoção de informações duplicadas/ausentes
Remoção de observações e erros irrelevantes
Remoção de colunas desnecessárias
Tratamento de dados inconsistentes
Tratamento de outliers e ruídoO método comum é normalizar a unidade de cada dimensão individualmente.
Aplique métodos de redução de dimensionalidade.
No artigo abaixo (fonte da resposta) você encontrar esse assunto um pouco mais sobre esse assunto:
https://www.edupristine.com/blog/k-means-algorithm
Assim como, nessa discussão você obter mais alguns insights:
Fabio
12 de janeiro de 2021 às 23:14 #23443Obrigado pelo retorno.
No caso de base de dados com variáveis, por exemplo, faixa de idade, gênero, Estado e categoria S/N, normalmente é mais adequado, antes de rodar no k-means, utilizar o pd.get_dummies, o labelencoder ou mesmo o one hot encoding? Em cada variável poderia utilizar uma forma diferente? É necessário também transformar em array após o procedimento anterior?
Obrigado.13 de janeiro de 2021 às 15:00 #23449Outra dúvida também em relação ao uso do PCA para geração da visualização posterior mostrada nos vídeos: seria necessário também, após o comando do pca.fit_transform , comandar o print(pca.explained_variance_ratio_.sum()) para verificar o quanto a redução da dimensionalidade ainda representa do original ou, nesse caso específico para geração do gráfico, não se faria necessário? Obrigado !
18 de janeiro de 2021 às 12:56 #27207Boa tarde Nelson, segue a resposta do instrutor Denny Ceccon:
“Como só é possível aplicar o KMeans em dados numéricos, as variáveis categóricas têm sim que ser transformadas no tipo one-hot-encoding (que é a mesma coisa que faz a função pd.get_dummies). Não sei se é “necessário” transformar em array, mas certamente não prejudica, já que as bibliotecas de machine learning costumam trabalhar com arrays do numpy.
Visualizar o quanto o PCA representa dos dados originais é interessante sim, porque se este valor for muito baixo, então o gráfico acaba não sendo uma boa representação do problema, já que ainda há muita variabilidade nas outras dimensões do PCA que não são plotadas. A ideia de concentrar a variabilidade em poucas dimensões é justamente permitir a visualização em plots.”Fabio
- AutorPosts
- Você deve fazer login para responder a este tópico.