Een PySpark groupby
Je hebt gezien hoe je het dask-framework en de DataFrame-abstractie gebruikt om berekeningen te doen. Maar zoals je in de video hebt gezien, is Spark in de bigdatawereld waarschijnlijk een populairdere keuze voor gegevensverwerking.
In deze oefening gebruik je het PySpark-pakket om met een Spark DataFrame te werken. De data is dezelfde als in eerdere oefeningen: deelnemers aan olympische evenementen tussen 1896 en 2016.
Het Spark DataFrame, athlete_events_spark, is beschikbaar in je werkruimte.
De methoden die je in deze oefening gaat gebruiken, zijn:
.printSchema(): helpt het schema van een Spark DataFrame af te drukken..groupBy(): groepeerinstructie voor een aggregatie..mean(): neem het gemiddelde per groep..show(): laat de resultaten zien.
Deze oefening maakt deel uit van de cursus
Introductie tot Data Engineering
Oefeninstructies
- Zoek het type van
athlete_events_sparkop. - Bekijk het schema van
athlete_events_spark. - Print de gemiddelde leeftijd van de olympiërs, gegroepeerd per jaar. Merk op dat Spark nog niets daadwerkelijk heeft berekend. Dit heet ook wel uitgestelde evaluatie (lazy evaluation).
- Neem het vorige resultaat en roep
.show()aan op het resultaat om de gemiddelde leeftijd te berekenen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())