Aan de slagGa gratis aan de slag

Model vluchttijd: vertrektijd toevoegen

In de vorige oefening is de vertrektijd in buckets verdeeld en omgezet naar dummyvariabelen. Nu ga je die dummyvariabelen opnemen in een regressiemodel voor vluchttijd.

De gegevens staan in flights. De kolommen km, org_dummy en depart_dummy zijn samengevoegd tot features, waarbij km index 0 is, org_dummy loopt van index 1 tot en met 7 en depart_dummy van index 8 tot en met 14.

De gegevens zijn opgesplitst in trainings- en testsets en er is een lineair regressiemodel, regression, gebouwd op de trainingsgegevens. Voorspellingen zijn gemaakt op de testgegevens en beschikbaar als predictions.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Bepaal de RMSE voor de voorspellingen op de testgegevens.
  • Bepaal de gemiddelde tijd op de grond voor vluchten die vertrekken van OGG tussen 21:00 en 24:00.
  • Bepaal de gemiddelde tijd op de grond voor vluchten die vertrekken van OGG tussen 03:00 en 06:00.
  • Bepaal de gemiddelde tijd op de grond voor vluchten die vertrekken van JFK tussen 03:00 en 06:00.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)

# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)

# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)
Code bewerken en uitvoeren