Base com dados categóricos

Home Fóruns Fórum Ciência de Dados para Empresas e Negócios Base com dados categóricos

Visualizando 5 posts - 1 até 5 (de 5 do total)
  • Autor
    Posts
  • #23429
    Nelson
    Participante

      Boa tarde!

      Nos vídeos do departamento de marketing utilizou -se de dados numéricos realizando o standardscaler para normalização.

      No caso de uma base com dados categóricos (faixa de idade, gênero, UF, etc.) qual seria a melhor forma de se realizar as análises,  bem como tratar/normalizar(se possível) antes de se rodar no k-means?

      Obrigado.

      #23435
      Fábio Spak
      Participante

        Boa noite Nelson, você pode considerar as etapas:

        Limpeza de Dados
        Remoção de informações duplicadas/ausentes
        Remoção de observações e erros irrelevantes
        Remoção de colunas desnecessárias
        Tratamento de dados inconsistentes
        Tratamento de outliers e ruído

        O método comum é normalizar a unidade de cada dimensão individualmente.

        Aplique métodos de redução de dimensionalidade.

        No artigo abaixo (fonte da resposta) você encontrar esse assunto um pouco mais sobre esse assunto:

        https://www.edupristine.com/blog/k-means-algorithm

        Assim como, nessa discussão você obter mais alguns insights:

        https://datascience.stackexchange.com/questions/22/k-means-clustering-for-mixed-numeric-and-categorical-data

        Fabio

        #23443
        Nelson
        Participante

          Obrigado pelo retorno.
          No caso de base de dados com variáveis, por exemplo, faixa de idade, gênero, Estado e categoria S/N, normalmente é mais adequado, antes de rodar no k-means, utilizar o pd.get_dummies, o labelencoder ou mesmo o one hot encoding? Em cada variável poderia utilizar uma forma diferente? É necessário também transformar em array após o procedimento anterior?
          Obrigado.

          #23449
          Nelson
          Participante

            Outra dúvida também em relação ao uso do PCA para geração da visualização posterior mostrada nos vídeos: seria necessário também, após o comando do pca.fit_transform , comandar o print(pca.explained_variance_ratio_.sum()) para verificar o quanto a redução da dimensionalidade ainda representa do original ou, nesse caso específico para geração do gráfico, não se faria necessário? Obrigado !

            #27207
            Fábio Spak
            Participante

              Boa tarde Nelson, segue a resposta do instrutor Denny Ceccon:

              “Como só é possível aplicar o KMeans em dados numéricos, as variáveis categóricas têm sim que ser transformadas no tipo one-hot-encoding (que é a mesma coisa que faz a função pd.get_dummies). Não sei se é “necessário” transformar em array, mas certamente não prejudica, já que as bibliotecas de machine learning costumam trabalhar com arrays do numpy.
              Visualizar o quanto o PCA representa dos dados originais é interessante sim, porque se este valor for muito baixo, então o gráfico acaba não sendo uma boa representação do problema, já que ainda há muita variabilidade nas outras dimensões do PCA que não são plotadas. A ideia de concentrar a variabilidade em poucas dimensões é justamente permitir a visualização em plots.”

              Fabio

            Visualizando 5 posts - 1 até 5 (de 5 do total)
            • Você deve fazer login para responder a este tópico.