Base com dados categóricos

Home Fóruns Fórum Ciência de Dados para Empresas e Negócios Base com dados categóricos

Visualizando 5 posts - 1 até 5 (de 5 do total)
  • Autor
    Posts
  • #23429
    Profile photo ofnelsoncoliveirajrNelson
    Participante

    Boa tarde!

    Nos vídeos do departamento de marketing utilizou -se de dados numéricos realizando o standardscaler para normalização.

    No caso de uma base com dados categóricos (faixa de idade, gênero, UF, etc.) qual seria a melhor forma de se realizar as análises,  bem como tratar/normalizar(se possível) antes de se rodar no k-means?

    Obrigado.

    #23435
    Fábio Spak
    Moderador

    Boa noite Nelson, você pode considerar as etapas:

    Limpeza de Dados
    Remoção de informações duplicadas/ausentes
    Remoção de observações e erros irrelevantes
    Remoção de colunas desnecessárias
    Tratamento de dados inconsistentes
    Tratamento de outliers e ruído

    O método comum é normalizar a unidade de cada dimensão individualmente.

    Aplique métodos de redução de dimensionalidade.

    No artigo abaixo (fonte da resposta) você encontrar esse assunto um pouco mais sobre esse assunto:

    https://www.edupristine.com/blog/k-means-algorithm

    Assim como, nessa discussão você obter mais alguns insights:

    https://datascience.stackexchange.com/questions/22/k-means-clustering-for-mixed-numeric-and-categorical-data

    Fabio

    #23443
    Profile photo ofnelsoncoliveirajrNelson
    Participante

    Obrigado pelo retorno.
    No caso de base de dados com variáveis, por exemplo, faixa de idade, gênero, Estado e categoria S/N, normalmente é mais adequado, antes de rodar no k-means, utilizar o pd.get_dummies, o labelencoder ou mesmo o one hot encoding? Em cada variável poderia utilizar uma forma diferente? É necessário também transformar em array após o procedimento anterior?
    Obrigado.

    #23449
    Profile photo ofnelsoncoliveirajrNelson
    Participante

    Outra dúvida também em relação ao uso do PCA para geração da visualização posterior mostrada nos vídeos: seria necessário também, após o comando do pca.fit_transform , comandar o print(pca.explained_variance_ratio_.sum()) para verificar o quanto a redução da dimensionalidade ainda representa do original ou, nesse caso específico para geração do gráfico, não se faria necessário? Obrigado !

    #27207
    Fábio Spak
    Moderador

    Boa tarde Nelson, segue a resposta do instrutor Denny Ceccon:

    “Como só é possível aplicar o KMeans em dados numéricos, as variáveis categóricas têm sim que ser transformadas no tipo one-hot-encoding (que é a mesma coisa que faz a função pd.get_dummies). Não sei se é “necessário” transformar em array, mas certamente não prejudica, já que as bibliotecas de machine learning costumam trabalhar com arrays do numpy.
    Visualizar o quanto o PCA representa dos dados originais é interessante sim, porque se este valor for muito baixo, então o gráfico acaba não sendo uma boa representação do problema, já que ainda há muita variabilidade nas outras dimensões do PCA que não são plotadas. A ideia de concentrar a variabilidade em poucas dimensões é justamente permitir a visualização em plots.”

    Fabio

Visualizando 5 posts - 1 até 5 (de 5 do total)
  • Você deve fazer login para responder a este tópico.