Home › Fóruns › Fórum Machine Learning para Competições Kaggle Curso 1 › RMSE DO TEST MUITO ALTO
- Este tópico contém 5 respostas, 3 vozes e foi atualizado pela última vez 10 meses, 2 semanas atrás por
Jones Granatyr.
- AutorPosts
- 26 de julho de 2023 às 11:32 #41387
Bom dia! Estava fazendo o código junto ao professor e alguns testes por minha conta. Na parte de fazer as previsões no banco de dados de treinamento(train), o RMSE ficou baixo como previsto.
Porém, quando faço as previsões no banco de dados de test para enivar ao Kaggle os valores do RMSE sobem muito. Não sei o porquê. Já conferi várias vezes meu código, mas não vi erros.
Se puderem me ajudar, ficarei grato.
- Este tópico foi modificado 1 ano, 7 meses atrás por
João Pedro Nunes Oliveira.
28 de julho de 2023 às 15:12 #41403Olá João,
Como você está avaliando nos dados de treinamento, deve estar ocorrendo overfitting. Para evitar isso é importante utilizar um dataset de validação durante o desenvolvimento do algoritmo.
29 de julho de 2023 às 09:13 #41423Na verdade eu usei, peguei uma parte dos dados de treinamento e fiz um dataset de test, os primeiro resultados acima são nos dados de validação. Os últimos, no de test para envio ao Kaggle. Por isso, não sei onde pode estar meu erro.
29 de julho de 2023 às 10:14 #41426Esses desafios são curiosos porque eles deixam evidente que nem sempre é tão simples resolver um problema de machine learning, esse parece ser um caso desses. Várias coisas inesperadas podem acontecer durante o desenvolvimento da solução, como o vazamento de dados, onde, de forma inadvertida e difícil de identificar, o modelo tem acesso a informações dos dados de validação junto com os dados de treinamento, o que diminui sua eficiência quando estiver sendo utilizado com dados realmente novos. Imagine, por exemplo, que os dados que o desafio disponibilizasse para treinamento são apenas referentes a um subgrupo, como um público específico, então na validação você até pode encontrar bons resultados, mas como os dados de teste não são restritos a este público, o modelo não performa tão bem. Esta situação seria um tópico avançado que nós não contemplamos no curso, para se aprofundar vale a pena procurar na plataforma do Kaggle se os vencedores dos desafios publicaram suas soluções.
29 de julho de 2023 às 16:22 #41430Estava pensando sobre isso também. Obrigado pela atenção, Denny.
4 de maio de 2024 às 09:56 #44652Qualquer outra dúvida é só avisar!
- Este tópico foi modificado 1 ano, 7 meses atrás por
- AutorPosts
- Você deve fazer login para responder a este tópico.