Erste SchritteKostenlos loslegen

Ein PySpark-Groupby

Du hast gesehen, wie du mit dem dask Framework und seiner DataFrame-Abstraktion einige Berechnungen durchführen kannst. Aber wie du im Video gesehen hast, ist Spark in der Big-Data-Welt wahrscheinlich die beliebteste Wahl für die Datenverarbeitung.

In dieser Übung verwendest du das PySpark-Paket, um einen Spark DataFrame zu verarbeiten. Die Daten sind dieselben wie in den vorherigen Übungen: Teilnehmer an olympischen Veranstaltungen zwischen 1896 und 2016.

Der Spark DataFrame, athlete_events_spark, ist in deinem Arbeitsbereich verfügbar.

Die Methoden, die du in dieser Übung anwenden wirst, sind:

  • .printSchema()hilft, das Schema eines Spark DataFrame zu drucken.
  • .groupBy(): Gruppierungsanweisung für eine Aggregation.
  • .mean(): Nimm den Mittelwert über jede Gruppe.
  • .show(): zeige die Ergebnisse.

Diese Übung ist Teil des Kurses

Einführung in die Datentechnik

Kurs anzeigen

Anleitung zur Übung

  • Finde die Art von athlete_events_spark heraus.
  • Finde das Schema von athlete_events_spark heraus.
  • Drucke das Durchschnittsalter der Olympioniken aus, gruppiert nach Jahr. Beachte, dass Spark noch gar nichts berechnet hat. Du kannst dies als faule Bewertung bezeichnen.
  • Nimm das vorherige Ergebnis und rufe .show() auf, um das Durchschnittsalter zu berechnen.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Bearbeiten und Ausführen von Code