Aan de slagGa gratis aan de slag

Een PySpark groupby

Je hebt gezien hoe je het dask-framework en de DataFrame-abstractie gebruikt om berekeningen te doen. Maar zoals je in de video hebt gezien, is Spark in de bigdatawereld waarschijnlijk een populairdere keuze voor gegevensverwerking.

In deze oefening gebruik je het PySpark-pakket om met een Spark DataFrame te werken. De data is dezelfde als in eerdere oefeningen: deelnemers aan olympische evenementen tussen 1896 en 2016.

Het Spark DataFrame, athlete_events_spark, is beschikbaar in je werkruimte.

De methoden die je in deze oefening gaat gebruiken, zijn:

  • .printSchema(): helpt het schema van een Spark DataFrame af te drukken.
  • .groupBy(): groepeerinstructie voor een aggregatie.
  • .mean(): neem het gemiddelde per groep.
  • .show(): laat de resultaten zien.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Cursus bekijken

Oefeninstructies

  • Zoek het type van athlete_events_spark op.
  • Bekijk het schema van athlete_events_spark.
  • Print de gemiddelde leeftijd van de olympiërs, gegroepeerd per jaar. Merk op dat Spark nog niets daadwerkelijk heeft berekend. Dit heet ook wel uitgestelde evaluatie (lazy evaluation).
  • Neem het vorige resultaat en roep .show() aan op het resultaat om de gemiddelde leeftijd te berekenen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Code bewerken en uitvoeren