Responder a: Base com dados categóricos

Home Fóruns Fórum Ciência de Dados para Empresas e Negócios Base com dados categóricos Responder a: Base com dados categóricos

#27207
Fábio Spak
Participante

    Boa tarde Nelson, segue a resposta do instrutor Denny Ceccon:

    “Como só é possível aplicar o KMeans em dados numéricos, as variáveis categóricas têm sim que ser transformadas no tipo one-hot-encoding (que é a mesma coisa que faz a função pd.get_dummies). Não sei se é “necessário” transformar em array, mas certamente não prejudica, já que as bibliotecas de machine learning costumam trabalhar com arrays do numpy.
    Visualizar o quanto o PCA representa dos dados originais é interessante sim, porque se este valor for muito baixo, então o gráfico acaba não sendo uma boa representação do problema, já que ainda há muita variabilidade nas outras dimensões do PCA que não são plotadas. A ideia de concentrar a variabilidade em poucas dimensões é justamente permitir a visualização em plots.”

    Fabio