Eine PySpark-Gruppierung
Du hast gesehen, wie man das Framework „ dask
“ und seine DataFrame-Abstraktion für Berechnungen nutzt. Wie du im Video gesehen hast, ist Spark in der Welt der Big Data wahrscheinlich die beliebtere Wahl für die Datenverarbeitung.
In dieser Übung wirst du das PySpark-Paket verwenden, um mit einem Spark DataFrame zu arbeiten. Die Daten sind die gleichen wie in den vorherigen Übungen: Teilnehmer an olympischen Wettbewerben zwischen 1896 und 2016.
Der Spark-DataFrame „ athlete_events_spark
“ ist in deinem Arbeitsbereich verfügbar.
Die Methoden, die du in dieser Übung anwenden wirst, sind:
.printSchema()
hilft beim Drucken des Schemas eines Spark DataFrame..groupBy()
Gruppierungsanweisung für eine Aggregation..mean()
: Nimm den Mittelwert jeder Gruppe..show()
Zeig die Ergebnisse.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Anleitung zur Übung
- Finde heraus, welche Art von
athlete_events_spark
es ist. - Schau dir mal das Schema von
athlete_events_spark
an. - Druck das Durchschnittsalter der Olympioniken aus, sortiert nach Jahrgängen. Beachte, dass Spark noch nichts berechnet hat. Man kann das als „lazy evaluation“ bezeichnen.
- Nimm das vorherige Ergebnis und ruf „
.show()
“ auf das Ergebnis auf, um das Durchschnittsalter zu berechnen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())