1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

cvičení

Zopakování validačního skóre

Ve videu jsi viděl/a jak validační skóre, tak skóre na veřejném žebříčku. Ukázky kódu ale byly k dispozici jen pro testovací data. Abys získal/a validační skóre, musíš stejný postup zopakovat na holdout množině.

V celé této kapitole budeš pracovat s daty ze soutěže New York City Taxi. Úkolem je předpovědět výši jízdného za taxi v New Yorku. Metrikou soutěže je střední kvadratická chyba (RMSE).

Prvním cílem je vyhodnotit základní model (Baseline) na validačních datech. Zreplikuješ nejjednodušší Baseline, který vychází z průměru sloupce "fare_amount". Jako validační strategii jsme použili 30% holdout split – validation_train jako trénovací DataFrame a validation_test jako holdout DataFrame. Oba jsou dostupné ve tvém pracovním prostředí.

Pokyny

100 XP
  • Vypočítej průměr sloupce "fare_amount" přes celý DataFrame validation_train.
  • Přiřaď tuto naivní předpověď všem predikcím na holdout množině. Ulož je do sloupce "pred".