Home › Fóruns › Fórum Ciência de Dados para Empresas e Negócios › Base com dados categóricos › Responder a: Base com dados categóricos
Boa tarde Nelson, segue a resposta do instrutor Denny Ceccon:
“Como só é possível aplicar o KMeans em dados numéricos, as variáveis categóricas têm sim que ser transformadas no tipo one-hot-encoding (que é a mesma coisa que faz a função pd.get_dummies). Não sei se é “necessário” transformar em array, mas certamente não prejudica, já que as bibliotecas de machine learning costumam trabalhar com arrays do numpy.
Visualizar o quanto o PCA representa dos dados originais é interessante sim, porque se este valor for muito baixo, então o gráfico acaba não sendo uma boa representação do problema, já que ainda há muita variabilidade nas outras dimensões do PCA que não são plotadas. A ideia de concentrar a variabilidade em poucas dimensões é justamente permitir a visualização em plots.”
Fabio