| IA Expert Academy

15 de julho de 2021 às 21:22 #29776

Participante

Olá Ahand, segue resposta do instrutor Denny:

No caso de variáveis categóricas, os pontos no gráfico só podem ocupar as posições (0, 0) – para classe 0 saída 0 – ou, respectivamente, (0, 1), (1, 0) e (1, 1). Acontece que eles vão estar concentrados nos pontos que correspondem às relações entre os dados. Suponha por exemplo que uma categoria esteja associada à saída 1 do sistema 70% das vezes em que ela ocorre no dataset, então 70% dos pontos para x = 1 estarão presentes em (1, 1), e os demais 30% em (1, 0); da mesma forma, se a ausência da categoria estiver relacionada com 65% da saída 0 e 35% da saída 1, teremos 65% dos pontos para x = 0 em (0, 0) e o restante em (0, 1). A curva em si é uma condição imposta pelo modelo, ele sempre vai produzir uma curva, mas suas características de inclinação são adequadas para resultar no menor erro possível considerando os dados. Ou seja, o modelo vai produzir uma curva, ainda que os dados não sejam representados explicitamente desta forma. Como os dados não são uma curva, o erro nunca vai ser zerado, mas meramente minimizado, que é exatamente o que a modelagem propõe.

Os dados podem ser tratados previamente em um editor de planilha, podendo economizar algumas etapas no Orange. Não temos conteúdos implementados especificamente no pré-processamento com o Orange. Mas, pesquisando encontrei mais alguns conteúdos que podem lhe ajudar:

https://www.youtube.com/watch?v=UiedzQwqVXs

https://orange3.readthedocs.io/projects/orange-data-mining-library/en/latest/reference/preprocess.html

Fabio