Un groupby in PySpark
Hai visto come usare il framework dask e la sua astrazione DataFrame per fare alcuni calcoli. Tuttavia, come spiegato nel video, nel mondo dei big data Spark è probabilmente la scelta più diffusa per l'elaborazione dei dati.
In questo esercizio userai il pacchetto PySpark per lavorare con un DataFrame di Spark. I dati sono gli stessi degli esercizi precedenti: i partecipanti agli eventi olimpici tra il 1896 e il 2016.
Il DataFrame di Spark, athlete_events_spark, è disponibile nel tuo workspace.
I metodi che userai in questo esercizio sono:
.printSchema(): aiuta a stampare lo schema di un DataFrame di Spark..groupBy(): istruzione di raggruppamento per un'aggregazione..mean(): calcola la media per ciascun gruppo..show(): mostra i risultati.
Questo esercizio fa parte del corso
Introduzione al Data Engineering
Istruzioni dell'esercizio
- Scopri il tipo di
athlete_events_spark. - Scopri lo schema di
athlete_events_spark. - Stampa l'età media degli atleti olimpici, raggruppata per anno. Nota che Spark in realtà non ha ancora calcolato nulla. Puoi chiamarlo lazy evaluation.
- Prendi il risultato precedente e chiama
.show()sul risultato per calcolare la media dell'età.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())