Einen DAG definieren

In den vorherigen Übungen hast du die drei Schritte des ETL-Prozesses angewendet:

Extrahieren: Extrahiere die PostgreSQL-Tabelle film in pandas.
Transformieren: Teile die Spalte rental_rate des DataFrames film auf.
Laden: Lade den DataFrame film in ein PostgreSQL-Data Warehouse.

Die Funktionen extract_film_to_pandas(), transform_rental_rate() und load_dataframe_to_film() sind in deinem Arbeitsbereich definiert. In dieser Übung fügst du einem vorhandenen DAG eine ETL-Aufgabe hinzu. Die zu erweiternde DAG und die Aufgabe, auf die gewartet werden soll, sind in deinem Arbeitsbereich als dag bzw. wait_for_table definiert.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>

Übungsanweisungen

Vervollständige die Funktion etl(), indem du die Funktionen verwendest, die in der Aufgabenbeschreibung definiert sind.
Stell sicher, dass etl_task die aufrufbare Funktion etl benutzt.
Richte die richtige Upstream-Abhängigkeit ein. Beachte, dass etl_task warten sollte, bis wait_for_table fertig ist.
Der Beispielcode beinhaltet einen Beispiellauf. Das heißt, die ETL-Pipeline läuft, wenn du den Code ausführst.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Define the ETL function
def etl():
    film_df = ____()
    film_df = ____(____)
    ____(____)

# Define the ETL task using PythonOperator
etl_task = PythonOperator(task_id='etl_film',
                          python_callable=____,
                          dag=dag)

# Set the upstream to wait_for_table and sample run etl()
etl_task.____(wait_for_table)
etl()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem ersten Kapitel tauchst du in die Welt des Data Engineering ein! Entdecke die Unterschiede zwischen einem Dateningenieur und einem Data Scientist, verschaff dir einen Überblick über die verschiedenen Tools, die Dateningenieure nutzen, und bekomme ein besseres Verständnis dafür, welche Rolle Cloud-Technologie beim Datenengineering spielt.

Exercise 1: Was ist Data Engineering?Exercise 2: Aufgaben des Dateningenieurs Exercise 3: Dateningenieur oder Data Scientist?Exercise 4: Probleme beim Data Engineering Exercise 5: Tools des Dateningenieurs Exercise 6: Arten von Datenbanken Exercise 7: Aufgaben verarbeiten Exercise 8: Planungstools Exercise 9: Cloud-Anbieter Exercise 10: Warum Cloud Computing?Exercise 11: Die Big Player im Cloud Computing Exercise 12: Cloud-Dienste

Jetzt, wo du die wichtigsten Unterschiede zwischen einem Dateningenieur und einem Data Scientist kennst, ist es an der Zeit, den Werkzeugkasten des Dateningenieurs zu erkunden! Erfahre mehr über die verschiedenen Arten von Datenbanken, die Dateningenieure nutzen, warum die Parallelverarbeitung ein wichtiger Teil ihres Werkzeugkastens ist und wie man Datenverarbeitungsaufgaben mit Hilfe von Scheduling-Frameworks plant.

Exercise 1: Datenbanken Exercise 2: SQL vs. NoSQL Exercise 3: Das Datenbankschema Exercise 4: Auf Grundlage von Beziehungen verbinden Exercise 5: Sternschema-Diagramm Exercise 6: Was ist Parallelverarbeitung?Exercise 7: Warum Parallelverarbeitung?Exercise 8: Von der Aufgabe zu den Teilaufgaben Exercise 9: Einen DataFrame verwenden Exercise 10: Frameworks der parallelen Verarbeitung Exercise 11: Spark, Hadoop und Hive Exercise 12: Eine PySpark-Gruppierung Exercise 13: PySpark-Dateien ausführen Exercise 14: Workflow-Planungs-Frameworks Exercise 15: Airflow, Luigi und cron Exercise 16: Airflow-DAGs

Nachdem wir uns mit den Tools der Dateningenieure beschäftigt haben, ist es jetzt an der Zeit, uns die grundlegenden Workflows eines Dateningenieurs anzuschauen! Mit ETL lernst du, wie du Rohdaten aus verschiedenen Quellen extrahierst, diese Rohdaten in verwertbare Erkenntnisse umwandelst und sie in relevante Datenbanken lädst, wo sie dann genutzt werden können!

Exercise 1: Extrahieren Exercise 2: Datenquellen Exercise 3: Aus einer API extrahieren Exercise 4: Aus einer Datenbank lesen Exercise 5: Transformieren Exercise 6: Die Mietkosten aufteilen Exercise 7: Auf Transformationen vorbereiten Exercise 8: Mit Bewertungen verknüpfen Exercise 9: Laden Exercise 10: OLAP oder OLTP Exercise 11: In eine Datei schreiben Exercise 12: In Postgres laden Exercise 13: Nun kommt alles zusammen Exercise 14: Einen DAG definieren

Aktuelle Übung

Exercise 15: Airflow einrichten Exercise 16: Den DAG interpretieren

Wiederhole die letzten drei Kapitel, indem du einen echten Data Engineering-Anwendungsfall von DataCamp untersuchst! Du wirst einen ETL-Prozess durchführen und planen, der rohe Kursbewertungsdaten in nützliche Kursempfehlungen für DataCamp-Lernende umwandelt!

Exercise 1: Kursbewertungen Exercise 2: Das Schema erkunden Exercise 3: Die Tabelle abfragen Exercise 4: Durchschnittliche Bewertung pro Kurs Exercise 5: Von Bewertungen bis zu Empfehlungen Exercise 6: Beschädigte Daten herausfiltern Exercise 7: Die Empfehlungstransformation nutzen Exercise 8: Tägliche Aufgaben planen Exercise 9: Die Zieltabelle Exercise 10: Den DAG definieren Exercise 11: Den DAG aktivieren Exercise 12: Empfehlungen abfragen Exercise 13: Glückwunsch!