IniziaInizia gratis

Aggregazioni

Tutti i metodi di aggregazione più comuni, come .min(), .max() e .count(), sono metodi di GroupedData. Questi vengono creati chiamando il metodo .groupBy() su un DataFrame. Capirai esattamente cosa significa nei prossimi esercizi. Per ora, tutto ciò che devi fare per usare queste funzioni è chiamare quel metodo sul tuo DataFrame. Per esempio, per trovare il valore minimo di una colonna col in un DataFrame df, puoi fare

df.groupBy().min("col").show()

Questo crea un oggetto GroupedData (così puoi usare il metodo .min()), poi trova il valore minimo in col e lo restituisce come DataFrame.

Ora sei prontə per fare un po' di aggregazioni per conto tuo!

Nel tuo workspace c'è già una SparkSession chiamata spark, insieme al DataFrame di Spark flights.

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Trova la lunghezza del volo più corto (in termini di distanza) partito da PDX applicando prima .filter() e poi usando il metodo .min(). Esegui il filtraggio facendo riferimento direttamente alla colonna, senza passare una stringa SQL.
  • Trova la durata del volo più lungo (in termini di tempo) partito da SEA applicando filter() e usando il metodo .max(). Esegui il filtraggio facendo riferimento direttamente alla colonna, senza passare una stringa SQL.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()

# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()
Modifica ed esegui il codice