RMSE DO TEST MUITO ALTO

Visualizando 6 posts - 1 até 6 (de 6 do total)
  • Autor
    Posts
  • #41387

    Bom dia! Estava fazendo o código junto ao professor e alguns testes por minha conta. Na parte de fazer as previsões no banco de dados de treinamento(train), o RMSE ficou baixo como previsto.

    Porém, quando faço as previsões no banco de dados de test para enivar ao Kaggle os valores do RMSE sobem muito. Não sei o porquê. Já conferi várias vezes meu código, mas não vi erros.

    Se puderem me ajudar, ficarei grato.

    #41403
    Denny Ceccon
    Moderador

      Olá João,

      Como você está avaliando nos dados de treinamento, deve estar ocorrendo overfitting. Para evitar isso é importante utilizar um dataset de validação durante o desenvolvimento do algoritmo.

      #41423

      Na verdade eu usei, peguei uma parte dos dados de treinamento e fiz um dataset de test, os primeiro resultados acima são nos dados de validação. Os últimos, no de test para envio ao Kaggle. Por isso, não sei onde pode estar meu erro.

       

      #41426
      Denny Ceccon
      Moderador

        Esses desafios são curiosos porque eles deixam evidente que nem sempre é tão simples resolver um problema de machine learning, esse parece ser um caso desses. Várias coisas inesperadas podem acontecer durante o desenvolvimento da solução, como o vazamento de dados, onde, de forma inadvertida e difícil de identificar, o modelo tem acesso a informações dos dados de validação junto com os dados de treinamento, o que diminui sua eficiência quando estiver sendo utilizado com dados realmente novos. Imagine, por exemplo, que os dados que o desafio disponibilizasse para treinamento são apenas referentes a um subgrupo, como um público específico, então na validação você até pode encontrar bons resultados, mas como os dados de teste não são restritos a este público, o modelo não performa tão bem. Esta situação seria um tópico avançado que nós não contemplamos no curso, para se aprofundar vale a pena procurar na plataforma do Kaggle se os vencedores dos desafios publicaram suas soluções.

        #41430

        Estava pensando sobre isso também. Obrigado pela atenção, Denny.

        #44652
        Jones Granatyr
        Moderador

          Qualquer outra dúvida é só avisar!

        Visualizando 6 posts - 1 até 6 (de 6 do total)
        • Você deve fazer login para responder a este tópico.