1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Model czasu lotu: regularyzacja!

W poprzednim ćwiczeniu dodano więcej predyktorów do modelu czasu lotu. Model dobrze radził sobie na danych testowych, jednak duża liczba współczynników utrudniała jego interpretację.

W tym ćwiczeniu użyjesz regresji Lasso (regularyzowanej karą L1), aby zbudować bardziej oszczędny model. Wiele współczynników w wynikowym modelu zostanie ustawionych na zero – oznacza to, że tylko część predyktorów faktycznie wpływa na model. Mimo uproszczonej struktury model nadal osiąga dobry wynik RMSE na danych testowych.

Użyjesz konkretnej wartości siły regularyzacji. Później nauczysz się, jak znaleźć optymalną wartość za pomocą walidacji krzyżowej.

Dane (takie same jak w poprzednim ćwiczeniu) są dostępne jako flights, losowo podzielone na flights_train i flights_test.

Model ma dwa parametry: λ (regParam) i α (elasticNetParam), gdzie α określa rodzaj regularyzacji, a λ – jej siłę.

Instrukcje

100 XP
  • Dopasuj model regresji liniowej do danych treningowych. Ustaw siłę regularyzacji na 1.
  • Oblicz RMSE na danych testowych.
  • Przyjrzyj się współczynnikom modelu.
  • Ile współczynników jest równych zero?