Eine PySpark-Gruppierung

Du hast erfahren, wie man das Framework dask und seine DataFrame-Abstraktion für Berechnungen nutzt. Wie du im Video gesehen hast, ist Spark in der Welt der Big Data jedoch wahrscheinlich die beliebtere Wahl für die Datenverarbeitung.

In dieser Übung wirst du das PySpark-Paket verwenden, um mit einem Spark-DataFrame zu arbeiten. Die Daten sind die gleichen wie in den vorherigen Übungen: Teilnehmer an olympischen Wettbewerben zwischen 1896 und 2016.

Der Spark-DataFrame athlete_events_spark ist in deinem Arbeitsbereich verfügbar.

Die Methoden, die du in dieser Übung anwenden wirst, sind:

.printSchema(): hilft beim Ausgeben des Schemas eines Spark DataFrame.
.groupBy(): Gruppierungsanweisung für eine Aggregation.
.mean(): den Mittelwert jeder Gruppe bestimmen.
.show(): Ergebnisse anzeigen.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Anleitung zur Übung

Finde heraus, welche Art von athlete_events_spark vorliegt.
Finde heraus, welches Schema von athlete_events_spark vorliegt.
Gib das Durchschnittsalter der Olympioniken aus, sortiert nach Jahrgängen. Wie du siehst, hat Spark noch nichts berechnet. Das wird auch als Lazy Evaluation, also faule bzw. verzögerte Auswertung bezeichnet.
Nimm das vorherige Ergebnis und ruf .show() auf dem Ergebnis auf, um das Durchschnittsalter zu berechnen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem ersten Kapitel tauchst du in die Welt des Data Engineering ein! Entdecke die Unterschiede zwischen einem Dateningenieur und einem Data Scientist, verschaff dir einen Überblick über die verschiedenen Tools, die Dateningenieure nutzen, und bekomme ein besseres Verständnis dafür, welche Rolle Cloud-Technologie beim Datenengineering spielt.

Exercise 1: Was ist Data Engineering?Exercise 2: Aufgaben des Dateningenieurs Exercise 3: Dateningenieur oder Data Scientist?Exercise 4: Probleme beim Data Engineering Exercise 5: Tools des Dateningenieurs Exercise 6: Arten von Datenbanken Exercise 7: Aufgaben verarbeiten Exercise 8: Planungstools Exercise 9: Cloud-Anbieter Exercise 10: Warum Cloud Computing?Exercise 11: Die Big Player im Cloud Computing Exercise 12: Cloud-Dienste

Jetzt, wo du die wichtigsten Unterschiede zwischen einem Dateningenieur und einem Data Scientist kennst, ist es an der Zeit, den Werkzeugkasten des Dateningenieurs zu erkunden! Erfahre mehr über die verschiedenen Arten von Datenbanken, die Dateningenieure nutzen, warum die Parallelverarbeitung ein wichtiger Teil ihres Werkzeugkastens ist und wie man Datenverarbeitungsaufgaben mit Hilfe von Scheduling-Frameworks plant.

Exercise 1: Datenbanken Exercise 2: SQL vs. NoSQL Exercise 3: Das Datenbankschema Exercise 4: Auf Grundlage von Beziehungen verbinden Exercise 5: Sternschema-Diagramm Exercise 6: Was ist Parallelverarbeitung?Exercise 7: Warum Parallelverarbeitung?Exercise 8: Von der Aufgabe zu den Teilaufgaben Exercise 9: Einen DataFrame verwenden Exercise 10: Frameworks der parallelen Verarbeitung Exercise 11: Spark, Hadoop und Hive Exercise 12: Eine PySpark-Gruppierung

Aktuelle Übung

Exercise 13: PySpark-Dateien ausführen Exercise 14: Workflow-Planungs-Frameworks Exercise 15: Airflow, Luigi und cron Exercise 16: Airflow-DAGs

Nachdem wir uns mit den Tools der Dateningenieure beschäftigt haben, ist es jetzt an der Zeit, uns die grundlegenden Workflows eines Dateningenieurs anzuschauen! Mit ETL lernst du, wie du Rohdaten aus verschiedenen Quellen extrahierst, diese Rohdaten in verwertbare Erkenntnisse umwandelst und sie in relevante Datenbanken lädst, wo sie dann genutzt werden können!

Exercise 1: Extrahieren Exercise 2: Datenquellen Exercise 3: Aus einer API extrahieren Exercise 4: Aus einer Datenbank lesen Exercise 5: Transformieren Exercise 6: Die Mietkosten aufteilen Exercise 7: Auf Transformationen vorbereiten Exercise 8: Mit Bewertungen verknüpfen Exercise 9: Laden Exercise 10: OLAP oder OLTP Exercise 11: In eine Datei schreiben Exercise 12: In Postgres laden Exercise 13: Nun kommt alles zusammen Exercise 14: Einen DAG definieren Exercise 15: Airflow einrichten Exercise 16: Den DAG interpretieren

Wiederhole die letzten drei Kapitel, indem du einen echten Data Engineering-Anwendungsfall von DataCamp untersuchst! Du wirst einen ETL-Prozess durchführen und planen, der rohe Kursbewertungsdaten in nützliche Kursempfehlungen für DataCamp-Lernende umwandelt!

Exercise 1: Kursbewertungen Exercise 2: Das Schema erkunden Exercise 3: Die Tabelle abfragen Exercise 4: Durchschnittliche Bewertung pro Kurs Exercise 5: Von Bewertungen bis zu Empfehlungen Exercise 6: Beschädigte Daten herausfiltern Exercise 7: Die Empfehlungstransformation nutzen Exercise 8: Tägliche Aufgaben planen Exercise 9: Die Zieltabelle Exercise 10: Den DAG definieren Exercise 11: Den DAG aktivieren Exercise 12: Empfehlungen abfragen Exercise 13: Glückwunsch!