RMSE DO TEST MUITO ALTO | IA Expert Academy

Marcado: (Desafio 2 Regressão Kaggle – Previsão de Tarifa de Táxi de Nova Iorque)

Este tópico contém 5 respostas, 3 vozes e foi atualizado pela última vez 1 ano, 2 meses atrás por Jones Granatyr.

Visualizando 6 posts - 1 até 6 (de 6 do total)

Autor
Posts
26 de julho de 2023 às 11:32 #41387
João Pedro Nunes Oliveira
Participante
Bom dia! Estava fazendo o código junto ao professor e alguns testes por minha conta. Na parte de fazer as previsões no banco de dados de treinamento(train), o RMSE ficou baixo como previsto.
Porém, quando faço as previsões no banco de dados de test para enivar ao Kaggle os valores do RMSE sobem muito. Não sei o porquê. Já conferi várias vezes meu código, mas não vi erros.
Se puderem me ajudar, ficarei grato.
- Este tópico foi modificado 1 ano, 11 meses atrás por João Pedro Nunes Oliveira.
28 de julho de 2023 às 15:12 #41403
Denny Ceccon
Moderador
Olá João,
Como você está avaliando nos dados de treinamento, deve estar ocorrendo overfitting. Para evitar isso é importante utilizar um dataset de validação durante o desenvolvimento do algoritmo.
29 de julho de 2023 às 09:13 #41423
João Pedro Nunes Oliveira
Participante
Na verdade eu usei, peguei uma parte dos dados de treinamento e fiz um dataset de test, os primeiro resultados acima são nos dados de validação. Os últimos, no de test para envio ao Kaggle. Por isso, não sei onde pode estar meu erro.
29 de julho de 2023 às 10:14 #41426
Denny Ceccon
Moderador
Esses desafios são curiosos porque eles deixam evidente que nem sempre é tão simples resolver um problema de machine learning, esse parece ser um caso desses. Várias coisas inesperadas podem acontecer durante o desenvolvimento da solução, como o vazamento de dados, onde, de forma inadvertida e difícil de identificar, o modelo tem acesso a informações dos dados de validação junto com os dados de treinamento, o que diminui sua eficiência quando estiver sendo utilizado com dados realmente novos. Imagine, por exemplo, que os dados que o desafio disponibilizasse para treinamento são apenas referentes a um subgrupo, como um público específico, então na validação você até pode encontrar bons resultados, mas como os dados de teste não são restritos a este público, o modelo não performa tão bem. Esta situação seria um tópico avançado que nós não contemplamos no curso, para se aprofundar vale a pena procurar na plataforma do Kaggle se os vencedores dos desafios publicaram suas soluções.
29 de julho de 2023 às 16:22 #41430
João Pedro Nunes Oliveira
Participante
Estava pensando sobre isso também. Obrigado pela atenção, Denny.
4 de maio de 2024 às 09:56 #44652
Jones Granatyr
Moderador
Qualquer outra dúvida é só avisar!
Autor
Posts

Visualizando 6 posts - 1 até 6 (de 6 do total)

Você deve fazer login para responder a este tópico.