1. Nauka
  2. /
  3. Kursy
  4. /
  5. Zwycięstwo w konkursie Kaggle w Pythonie

Connected

ćwiczenie

Replikacja wyniku walidacji

W filmie pokazano zarówno wyniki walidacji, jak i wyniki z Publicznego Rankingu (Public Leaderboard). Jednak przykłady kodu dotyczą wyłącznie danych testowych. Aby uzyskać wyniki walidacji, musisz powtórzyć ten sam proces na zbiorze holdout.

W tym rozdziale będziesz pracować z danymi z konkursu New York City Taxi. Zadanie polega na przewidzeniu kwoty opłaty za przejazd taksówką w Nowym Jorku. Metryka konkursu to pierwiastek z błędu średniokwadratowego (RMSE).

Pierwszym celem jest ocena modelu bazowego na danych walidacyjnych. Zreplikujesz najprostszy model bazowy oparty na średniej kolumny "fare_amount". Jako strategię walidacji przyjęto podział holdout z 30% danych, gdzie validation_train to zbiór treningowy, a validation_test to zbiór holdout. Oba są dostępne w twoim środowisku pracy.

Instrukcje

100 XP
  • Oblicz średnią kolumny "fare_amount" dla całego DataFrame validation_train.
  • Przypisz tę naiwną wartość prognozy do wszystkich predykcji w zbiorze holdout. Zapisz je w kolumnie "pred".