Aggregazioni II
Per prendere confidenza con altri metodi di aggregazione integrati, ecco qualche esercizio in più sulla tabella flights!
Ricorda: una SparkSession chiamata spark è già presente nel tuo workspace, insieme allo Spark DataFrame flights.
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Usa il metodo
.avg()per ottenere il tempo medio di volo dei voli Delta Airlines (dove la colonnacarrierha valore"DL") partiti da SEA. Il luogo di partenza è nella colonnaorigin. Eseguishow()sul risultato. - Usa il metodo
.sum()per ottenere il numero totale di ore che tutti gli aerei in questo insieme di dati hanno trascorso in volo, creando una colonna chiamataduration_hrsa partire dalla colonnaair_time. Eseguishow()sul risultato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()