IniziaInizia gratis

Aggregazioni II

Per prendere confidenza con altri metodi di aggregazione integrati, ecco qualche esercizio in più sulla tabella flights!

Ricorda: una SparkSession chiamata spark è già presente nel tuo workspace, insieme allo Spark DataFrame flights.

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il metodo .avg() per ottenere il tempo medio di volo dei voli Delta Airlines (dove la colonna carrier ha valore "DL") partiti da SEA. Il luogo di partenza è nella colonna origin. Esegui show() sul risultato.
  • Usa il metodo .sum() per ottenere il numero totale di ore che tutti gli aerei in questo insieme di dati hanno trascorso in volo, creando una colonna chiamata duration_hrs a partire dalla colonna air_time. Esegui show() sul risultato.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Modifica ed esegui il codice