1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

Cvičení

Model doby letu: Regularizace!

V předchozím cvičení jsi přidal/a do modelu doby letu více prediktorů. Model si vedl dobře na testovacích datech, ale s tolika koeficienty bylo těžké ho interpretovat.

V tomto cvičení použiješ Lasso regresi (regularizovanou L1 penalizací) k vytvoření úspornějšího modelu. Mnohé z koeficientů výsledného modelu budou nastaveny na nulu. To znamená, že k modelu skutečně přispívá jen část prediktorů. I přes jednodušší model stále dosahuje dobrého RMSE na testovacích datech.

Použiješ konkrétní hodnotu síly regularizace. Jak najít tu nejlepší hodnotu pomocí křížové validace, se dozvíš později.

Data (stejná jako v předchozím cvičení) jsou dostupná jako flights, náhodně rozdělená na flights_train a flights_test.

Tento model má dva parametry: λ (regParam) a α (elasticNetParam), kde α určuje typ regularizace a λ udává její sílu.

Pokyny

100 XP
  • Natrénuj model lineární regrese na trénovacích datech. Nastav sílu regularizace na 1.
  • Vypočítej RMSE na testovacích datech.
  • Prohlédni si koeficienty modelu.
  • Kolik z koeficientů se rovná nule?