Aggregieren von II
Um dich mit den integrierten Aggregationsmethoden vertraut zu machen, findest du hier ein paar weitere Aufgaben mit der Tabelle flights!
Erinnere dich daran, dass eine SparkSession mit dem Namen spark bereits in deinem Arbeitsbereich liegt, zusammen mit dem Spark DataFrame flights.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Verwende die Methode
.avg(), um die durchschnittliche Flugzeit der Delta-Airlines-Flüge zu ermitteln (wobei die Spaltecarrierden Wert"DL"hat), die SEA verlassen haben. Der Abflugort wird in der Spalteorigingespeichert. Zeige mitshow()das Ergebnis an. - Verwende die Methode
.sum(), um die Gesamtzahl der Stunden zu ermitteln, die alle Flugzeuge in diesem Datensatz in der Luft verbracht haben, indem du eine Spalte namensduration_hrsaus der Spalteair_timeerstellst. Zeige mitshow()das Ergebnis.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()