Converti un DataFrame di Spark in pandas
Immagina di aver eseguito una query sul tuo enorme insieme di dati e di averla aggregata fino a ottenere qualcosa di più gestibile.
A volte ha senso prendere quella tabella e lavorarci in locale con uno strumento come pandas. Con i DataFrame di Spark è facile grazie al metodo .toPandas(). Chiamare questo metodo su un DataFrame di Spark restituisce il corrispondente DataFrame di pandas. Semplice!
Questa volta la query conta il numero di voli verso ciascun aeroporto da SEA e PDX.
Ricorda: nel tuo workspace c'è già una SparkSession chiamata spark!
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Esegui la query con il metodo
.sql(). Salva il risultato inflight_counts. - Usa il metodo
.toPandas()suflight_countsper creare un DataFrame dipandaschiamatopd_counts. - Stampa in console il
.head()dipd_counts.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)