Ein PySpark-Groupby
Du hast gesehen, wie du mit dem dask
Framework und seiner DataFrame-Abstraktion einige Berechnungen durchführen kannst. Aber wie du im Video gesehen hast, ist Spark in der Big-Data-Welt wahrscheinlich die beliebteste Wahl für die Datenverarbeitung.
In dieser Übung verwendest du das PySpark-Paket, um einen Spark DataFrame zu verarbeiten. Die Daten sind dieselben wie in den vorherigen Übungen: Teilnehmer an olympischen Veranstaltungen zwischen 1896 und 2016.
Der Spark DataFrame, athlete_events_spark
, ist in deinem Arbeitsbereich verfügbar.
Die Methoden, die du in dieser Übung anwenden wirst, sind:
.printSchema()
hilft, das Schema eines Spark DataFrame zu drucken..groupBy()
: Gruppierungsanweisung für eine Aggregation..mean()
: Nimm den Mittelwert über jede Gruppe..show()
: zeige die Ergebnisse.
Diese Übung ist Teil des Kurses
Einführung in die Datentechnik
Anleitung zur Übung
- Finde die Art von
athlete_events_spark
heraus. - Finde das Schema von
athlete_events_spark
heraus. - Drucke das Durchschnittsalter der Olympioniken aus, gruppiert nach Jahr. Beachte, dass Spark noch gar nichts berechnet hat. Du kannst dies als faule Bewertung bezeichnen.
- Nimm das vorherige Ergebnis und rufe
.show()
auf, um das Durchschnittsalter zu berechnen.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())