Dúvida conceitual sobre Classificação

Home Fóruns Fórum Mineração de Emoção em Textos com Python e NLTK Dúvida conceitual sobre Classificação

Marcado: 

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #29632
    Daniel Graciliano
    Participante

      Olá, sobre a classificação. Vi que o histórico de dados que foi já classificado possui determinadas combinações das variáveis independentes, nos exemplos eles não tem todas as combinações com as variáveis preditivas. Já o que vou submeter ao algoritmo vejo que o que vai ser avaliado pode ou não estar dentro do histórico, nos exemplos, vi que não estão. Minhas dúvidas são: quando as bases históricas já possuem muitos registros e que todas as combinações já foram realizadas, o algoritmo sempre irá classificar já com o tipo da base? Outra dúvida, se no histórico que o algoritmo treinou eu tiver duas classificações diferentes para uma mesma combinação, o que ocorreria? Obrigado.

      Ps: tenho outras dúvidas mas ainda não avancei… como por exemplo, posso inserir mais variáveis na base para ir desenvolvendo um sistema com mais variáveis mesmo que o histórico anterior não possua essas informações? (Teria que separar as duas bases (uma com a variável nova e outra sem). Obrigado novamente…

       

      #29790
      Denny Ceccon
      Moderador

        Olá Daniel,

        A presença de um registro na base histórica não é garantia que o modelo vai retornar o mesmo resultado no modo de predição. Fosse assim, a acurácia no dataset de treinamento seria seria de 100%, e não é o caso. Acontece que os modelos de machine learning começam a aprender a partir de uma situação onde há ausência de conhecimento, e a cada exposição a um dado, eles fazem um pequeno ajuste no sentido de prever a informação que o dado sugere. Mas todo algoritmo tem suas premissas, por exemplo, uma regressão linear vai sempre produzir uma reta, e é possível que a reta no final das contas não inclua exatamente o dado original, mas passe o mais próximo possível que essa limitação (ser uma reta) permite. É por isso que todo modelo tem um erro associado, e às vezes este erro é em decorrência de os dados não atenderem as premissas do algoritmo, como no exemplo, de ser um problema linear.

        Se houver dois registros com a classificação diferente, cada um deles vai “puxar” o modelo para o “seu canto”, mas no final das contas, todas as outras instâncias de dados fazem isso, então o resultado final depende do efeito somado de cada uma delas. Não é possível dizer antecipadamente qual predição o modelo vai fazer somente com as informações que você sugere, pois o modelo aprender a partir da coleção de dados somada.

        Sobre incluir mais variáveis, você certamente pode, mas os dados usados no treinamento devem ter valores conhecidos para essas variáveis, se não o modelo não tem como levá-la em consideração. Às vezes nós geramos novas variáveis a partir das já existentes, ou seja, é possível gerar a nova variável a partir dos dados de histórico, mas não é possível incluir uma variável para a qual você não conheça, ou não possa coletar, os valores.

      Visualizando 2 posts - 1 até 2 (de 2 do total)
      • Você deve fazer login para responder a este tópico.