LoslegenKostenlos loslegen

Aggregieren von II

Um dich mit den integrierten Aggregationsmethoden vertraut zu machen, findest du hier ein paar weitere Aufgaben mit der Tabelle flights!

Erinnere dich daran, dass eine SparkSession mit dem Namen spark bereits in deinem Arbeitsbereich liegt, zusammen mit dem Spark DataFrame flights.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Verwende die Methode .avg(), um die durchschnittliche Flugzeit der Delta-Airlines-Flüge zu ermitteln (wobei die Spalte carrier den Wert "DL" hat), die SEA verlassen haben. Der Abflugort wird in der Spalte origin gespeichert. Zeige mit show() das Ergebnis an.
  • Verwende die Methode .sum(), um die Gesamtzahl der Stunden zu ermitteln, die alle Flugzeuge in diesem Datensatz in der Luft verbracht haben, indem du eine Spalte namens duration_hrs aus der Spalte air_time erstellst. Zeige mit show() das Ergebnis.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Code bearbeiten und ausführen