Aggregieren von II
Um dich mit den integrierten Aggregationsmethoden vertraut zu machen, findest du hier ein paar weitere Aufgaben mit der Tabelle flights
!
Erinnere dich daran, dass eine SparkSession
mit dem Namen spark
bereits in deinem Arbeitsbereich liegt, zusammen mit dem Spark DataFrame flights
.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Verwende die Methode
.avg()
, um die durchschnittliche Flugzeit der Delta-Airlines-Flüge zu ermitteln (wobei die Spaltecarrier
den Wert"DL"
hat), die SEA verlassen haben. Der Abflugort wird in der Spalteorigin
gespeichert. Zeige mitshow()
das Ergebnis an. - Verwende die Methode
.sum()
, um die Gesamtzahl der Stunden zu ermitteln, die alle Flugzeuge in diesem Datensatz in der Luft verbracht haben, indem du eine Spalte namensduration_hrs
aus der Spalteair_time
erstellst. Zeige mitshow()
das Ergebnis.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()