Aggregaties II
Om je vertrouwd te maken met meer ingebouwde aggregatiemethoden, volgen hier nog een paar oefeningen met de tabel flights!
Onthoud: er staat al een SparkSession met de naam spark klaar in je workspace, samen met de Spark DataFrame flights.
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Gebruik de methode
.avg()om de gemiddelde vliegtijd op te halen van Delta Airlines-vluchten (waar de kolomcarrierde waarde"DL"heeft) die vertrokken uit SEA. De plaats van vertrek staat in de kolomorigin.show()het resultaat. - Gebruik de methode
.sum()om het totaal aantal uren te berekenen dat alle vliegtuigen in deze gegevensset in de lucht waren, door een kolomduration_hrste maken op basis van de kolomair_time.show()het resultaat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()