IniziaInizia gratis

Converti un DataFrame di Spark in pandas

Immagina di aver eseguito una query sul tuo enorme insieme di dati e di averla aggregata fino a ottenere qualcosa di più gestibile.

A volte ha senso prendere quella tabella e lavorarci in locale con uno strumento come pandas. Con i DataFrame di Spark è facile grazie al metodo .toPandas(). Chiamare questo metodo su un DataFrame di Spark restituisce il corrispondente DataFrame di pandas. Semplice!

Questa volta la query conta il numero di voli verso ciascun aeroporto da SEA e PDX.

Ricorda: nel tuo workspace c'è già una SparkSession chiamata spark!

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Esegui la query con il metodo .sql(). Salva il risultato in flight_counts.
  • Usa il metodo .toPandas() su flight_counts per creare un DataFrame di pandas chiamato pd_counts.
  • Stampa in console il .head() di pd_counts.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Modifica ed esegui il codice