Home › Fóruns › Fórum Mineração de Emoção em Textos com Python e NLTK › Dúvida conceitual sobre Classificação › Responder a: Dúvida conceitual sobre Classificação
Olá Daniel,
A presença de um registro na base histórica não é garantia que o modelo vai retornar o mesmo resultado no modo de predição. Fosse assim, a acurácia no dataset de treinamento seria seria de 100%, e não é o caso. Acontece que os modelos de machine learning começam a aprender a partir de uma situação onde há ausência de conhecimento, e a cada exposição a um dado, eles fazem um pequeno ajuste no sentido de prever a informação que o dado sugere. Mas todo algoritmo tem suas premissas, por exemplo, uma regressão linear vai sempre produzir uma reta, e é possível que a reta no final das contas não inclua exatamente o dado original, mas passe o mais próximo possível que essa limitação (ser uma reta) permite. É por isso que todo modelo tem um erro associado, e às vezes este erro é em decorrência de os dados não atenderem as premissas do algoritmo, como no exemplo, de ser um problema linear.
Se houver dois registros com a classificação diferente, cada um deles vai “puxar” o modelo para o “seu canto”, mas no final das contas, todas as outras instâncias de dados fazem isso, então o resultado final depende do efeito somado de cada uma delas. Não é possível dizer antecipadamente qual predição o modelo vai fazer somente com as informações que você sugere, pois o modelo aprender a partir da coleção de dados somada.
Sobre incluir mais variáveis, você certamente pode, mas os dados usados no treinamento devem ter valores conhecidos para essas variáveis, se não o modelo não tem como levá-la em consideração. Às vezes nós geramos novas variáveis a partir das já existentes, ou seja, é possível gerar a nova variável a partir dos dados de histórico, mas não é possível incluir uma variável para a qual você não conheça, ou não possa coletar, os valores.