Aan de slagGa gratis aan de slag

Aggregaties II

Om je vertrouwd te maken met meer ingebouwde aggregatiemethoden, volgen hier nog een paar oefeningen met de tabel flights!

Onthoud: er staat al een SparkSession met de naam spark klaar in je workspace, samen met de Spark DataFrame flights.

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Gebruik de methode .avg() om de gemiddelde vliegtijd op te halen van Delta Airlines-vluchten (waar de kolom carrier de waarde "DL" heeft) die vertrokken uit SEA. De plaats van vertrek staat in de kolom origin. show() het resultaat.
  • Gebruik de methode .sum() om het totaal aantal uren te berekenen dat alle vliegtuigen in deze gegevensset in de lucht waren, door een kolom duration_hrs te maken op basis van de kolom air_time. show() het resultaat.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Code bewerken en uitvoeren