IniziaInizia gratis

Un groupby in PySpark

Hai visto come usare il framework dask e la sua astrazione DataFrame per fare alcuni calcoli. Tuttavia, come spiegato nel video, nel mondo dei big data Spark è probabilmente la scelta più diffusa per l'elaborazione dei dati.

In questo esercizio userai il pacchetto PySpark per lavorare con un DataFrame di Spark. I dati sono gli stessi degli esercizi precedenti: i partecipanti agli eventi olimpici tra il 1896 e il 2016.

Il DataFrame di Spark, athlete_events_spark, è disponibile nel tuo workspace.

I metodi che userai in questo esercizio sono:

  • .printSchema(): aiuta a stampare lo schema di un DataFrame di Spark.
  • .groupBy(): istruzione di raggruppamento per un'aggregazione.
  • .mean(): calcola la media per ciascun gruppo.
  • .show(): mostra i risultati.

Questo esercizio fa parte del corso

Introduzione al Data Engineering

Visualizza il corso

Istruzioni dell'esercizio

  • Scopri il tipo di athlete_events_spark.
  • Scopri lo schema di athlete_events_spark.
  • Stampa l'età media degli atleti olimpici, raggruppata per anno. Nota che Spark in realtà non ha ancora calcolato nulla. Puoi chiamarlo lazy evaluation.
  • Prendi il risultato precedente e chiama .show() sul risultato per calcolare la media dell'età.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Modifica ed esegui il codice