LoslegenKostenlos loslegen

Eine PySpark-Gruppierung

Du hast erfahren, wie man das Framework dask und seine DataFrame-Abstraktion für Berechnungen nutzt. Wie du im Video gesehen hast, ist Spark in der Welt der Big Data jedoch wahrscheinlich die beliebtere Wahl für die Datenverarbeitung.

In dieser Übung wirst du das PySpark-Paket verwenden, um mit einem Spark-DataFrame zu arbeiten. Die Daten sind die gleichen wie in den vorherigen Übungen: Teilnehmer an olympischen Wettbewerben zwischen 1896 und 2016.

Der Spark-DataFrame athlete_events_spark ist in deinem Arbeitsbereich verfügbar.

Die Methoden, die du in dieser Übung anwenden wirst, sind:

  • .printSchema(): hilft beim Ausgeben des Schemas eines Spark DataFrame.
  • .groupBy(): Gruppierungsanweisung für eine Aggregation.
  • .mean(): den Mittelwert jeder Gruppe bestimmen.
  • .show(): Ergebnisse anzeigen.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Kurs anzeigen

Anleitung zur Übung

  • Finde heraus, welche Art von athlete_events_spark vorliegt.
  • Finde heraus, welches Schema von athlete_events_spark vorliegt.
  • Gib das Durchschnittsalter der Olympioniken aus, sortiert nach Jahrgängen. Wie du siehst, hat Spark noch nichts berechnet. Das wird auch als Lazy Evaluation, also faule bzw. verzögerte Auswertung bezeichnet.
  • Nimm das vorherige Ergebnis und ruf .show() auf dem Ergebnis auf, um das Durchschnittsalter zu berechnen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Code bearbeiten und ausführen