Eine PySpark-Gruppierung
Du hast erfahren, wie man das Framework dask und seine DataFrame-Abstraktion für Berechnungen nutzt. Wie du im Video gesehen hast, ist Spark in der Welt der Big Data jedoch wahrscheinlich die beliebtere Wahl für die Datenverarbeitung.
In dieser Übung wirst du das PySpark-Paket verwenden, um mit einem Spark-DataFrame zu arbeiten. Die Daten sind die gleichen wie in den vorherigen Übungen: Teilnehmer an olympischen Wettbewerben zwischen 1896 und 2016.
Der Spark-DataFrame athlete_events_spark ist in deinem Arbeitsbereich verfügbar.
Die Methoden, die du in dieser Übung anwenden wirst, sind:
.printSchema(): hilft beim Ausgeben des Schemas eines Spark DataFrame..groupBy(): Gruppierungsanweisung für eine Aggregation..mean(): den Mittelwert jeder Gruppe bestimmen..show(): Ergebnisse anzeigen.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Anleitung zur Übung
- Finde heraus, welche Art von
athlete_events_sparkvorliegt. - Finde heraus, welches Schema von
athlete_events_sparkvorliegt. - Gib das Durchschnittsalter der Olympioniken aus, sortiert nach Jahrgängen. Wie du siehst, hat Spark noch nichts berechnet. Das wird auch als Lazy Evaluation, also faule bzw. verzögerte Auswertung bezeichnet.
- Nimm das vorherige Ergebnis und ruf
.show()auf dem Ergebnis auf, um das Durchschnittsalter zu berechnen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())