1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Machine Learning with PySpark

Connected

Exercise

Model doby letu: Přidání výchozího letiště

Některá letiště jsou vytíženější než jiná – a některá jsou i větší. Lety odlétající z velkých nebo rušných letišť pravděpodobně stráví více času pojížděním po ranveji nebo čekáním na přidělení vzletového slotu. Dává tedy smysl, že doba letu závisí nejen na ujeté vzdálenosti, ale také na letišti, ze kterého let odlétá.

Regresní model teď trochu vylepšíme – přidáme výchozí letiště jako prediktor.

Data jsou rozdělena na trénovací a testovací sadu a jsou dostupná jako flights_train a flights_test. Výchozí letiště, uložené ve sloupci org, bylo zakódováno do org_idx, které bylo následně one-hot enkódováno do org_dummy. První záznamy jsou zobrazeny v terminálu.

Instrukcje

100 XP
  • Natrénuj model lineární regrese na trénovacích datech.
  • Vytvoř predikce pro testovací data.
  • Vypočítej RMSE pro predikce na testovacích datech.