Home › Forums › Fórum Machine Learning para Competições Kaggle Curso 1 › RMSE DO TEST MUITO ALTO
- This topic has 5 replies, 3 voices, and was last updated 11 months, 3 weeks ago by
Jones Granatyr.
- AuthorPosts
- 26 de July de 2023 at 11:32 #41387
Bom dia! Estava fazendo o código junto ao professor e alguns testes por minha conta. Na parte de fazer as previsões no banco de dados de treinamento(train), o RMSE ficou baixo como previsto.
Porém, quando faço as previsões no banco de dados de test para enivar ao Kaggle os valores do RMSE sobem muito. Não sei o porquê. Já conferi várias vezes meu código, mas não vi erros.
Se puderem me ajudar, ficarei grato.
- This topic was modified 1 year, 8 months ago by
João Pedro Nunes Oliveira.
28 de July de 2023 at 15:12 #41403Olá João,
Como você está avaliando nos dados de treinamento, deve estar ocorrendo overfitting. Para evitar isso é importante utilizar um dataset de validação durante o desenvolvimento do algoritmo.
29 de July de 2023 at 09:13 #41423Na verdade eu usei, peguei uma parte dos dados de treinamento e fiz um dataset de test, os primeiro resultados acima são nos dados de validação. Os últimos, no de test para envio ao Kaggle. Por isso, não sei onde pode estar meu erro.
29 de July de 2023 at 10:14 #41426Esses desafios são curiosos porque eles deixam evidente que nem sempre é tão simples resolver um problema de machine learning, esse parece ser um caso desses. Várias coisas inesperadas podem acontecer durante o desenvolvimento da solução, como o vazamento de dados, onde, de forma inadvertida e difícil de identificar, o modelo tem acesso a informações dos dados de validação junto com os dados de treinamento, o que diminui sua eficiência quando estiver sendo utilizado com dados realmente novos. Imagine, por exemplo, que os dados que o desafio disponibilizasse para treinamento são apenas referentes a um subgrupo, como um público específico, então na validação você até pode encontrar bons resultados, mas como os dados de teste não são restritos a este público, o modelo não performa tão bem. Esta situação seria um tópico avançado que nós não contemplamos no curso, para se aprofundar vale a pena procurar na plataforma do Kaggle se os vencedores dos desafios publicaram suas soluções.
29 de July de 2023 at 16:22 #41430Estava pensando sobre isso também. Obrigado pela atenção, Denny.
4 de May de 2024 at 09:56 #44652Qualquer outra dúvida é só avisar!
- This topic was modified 1 year, 8 months ago by
- AuthorPosts
- You must be logged in to reply to this topic.