In eine Datei schreiben

Im Video hast du gesehen, dass Dateien oft in eine MPP-Datenbank wie Redshift geladen werden, damit sie für Analysen verfügbar sind.

Normalerweise werden die Daten in spaltenorientierte Dateien geschrieben. Diese Dateien werden dann auf ein Speichersystem hochgeladen und von dort können sie ins Data Warehouse kopiert werden. Bei Amazon Redshift wäre das Speichersystem zum Beispiel S3.

Der erste Schritt ist, eine Datei im richtigen Format zu schreiben. Für diese Übungen nimmst du das Dateiformat Apache Parquet.

In deinem Arbeitsbereich gibt es einen PySpark-DataFrame namens film_sdf und einen Pandas-DataFrame namens film_pdf.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Anleitung zur Übung

Schreibe den DataFrame pandas film_pdf in eine Parquet-Datei namens "films_pdf.parquet".
Schreibe den PySpark-DataFrame film_sdf in eine Parquet-Datei namens "films_sdf.parquet".

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem ersten Kapitel tauchst du in die Welt des Data Engineering ein! Entdecke die Unterschiede zwischen einem Dateningenieur und einem Data Scientist, verschaff dir einen Überblick über die verschiedenen Tools, die Dateningenieure nutzen, und bekomme ein besseres Verständnis dafür, welche Rolle Cloud-Technologie beim Datenengineering spielt.

Exercise 1: Was ist Data Engineering?Exercise 2: Aufgaben des Dateningenieurs Exercise 3: Dateningenieur oder Data Scientist?Exercise 4: Probleme beim Data Engineering Exercise 5: Tools des Dateningenieurs Exercise 6: Arten von Datenbanken Exercise 7: Aufgaben verarbeiten Exercise 8: Planungstools Exercise 9: Cloud-Anbieter Exercise 10: Warum Cloud Computing?Exercise 11: Die Big Player im Cloud Computing Exercise 12: Cloud-Dienste

Jetzt, wo du die wichtigsten Unterschiede zwischen einem Dateningenieur und einem Data Scientist kennst, ist es an der Zeit, den Werkzeugkasten des Dateningenieurs zu erkunden! Erfahre mehr über die verschiedenen Arten von Datenbanken, die Dateningenieure nutzen, warum die Parallelverarbeitung ein wichtiger Teil ihres Werkzeugkastens ist und wie man Datenverarbeitungsaufgaben mit Hilfe von Scheduling-Frameworks plant.

Exercise 1: Datenbanken Exercise 2: SQL vs. NoSQL Exercise 3: Das Datenbankschema Exercise 4: Auf Grundlage von Beziehungen verbinden Exercise 5: Sternschema-Diagramm Exercise 6: Was ist Parallelverarbeitung?Exercise 7: Warum Parallelverarbeitung?Exercise 8: Von der Aufgabe zu den Teilaufgaben Exercise 9: Einen DataFrame verwenden Exercise 10: Frameworks der parallelen Verarbeitung Exercise 11: Spark, Hadoop und Hive Exercise 12: Eine PySpark-Gruppierung Exercise 13: PySpark-Dateien ausführen Exercise 14: Workflow-Planungs-Frameworks Exercise 15: Airflow, Luigi und cron Exercise 16: Airflow-DAGs

Nachdem wir uns mit den Tools der Dateningenieure beschäftigt haben, ist es jetzt an der Zeit, uns die grundlegenden Workflows eines Dateningenieurs anzuschauen! Mit ETL lernst du, wie du Rohdaten aus verschiedenen Quellen extrahierst, diese Rohdaten in verwertbare Erkenntnisse umwandelst und sie in relevante Datenbanken lädst, wo sie dann genutzt werden können!

Exercise 1: Extrahieren Exercise 2: Datenquellen Exercise 3: Aus einer API extrahieren Exercise 4: Aus einer Datenbank lesen Exercise 5: Transformieren Exercise 6: Die Mietkosten aufteilen Exercise 7: Auf Transformationen vorbereiten Exercise 8: Mit Bewertungen verknüpfen Exercise 9: Laden Exercise 10: OLAP oder OLTP Exercise 11: In eine Datei schreiben

Aktuelle Übung

Exercise 12: In Postgres laden Exercise 13: Nun kommt alles zusammen Exercise 14: Einen DAG definieren Exercise 15: Airflow einrichten Exercise 16: Den DAG interpretieren

Wiederhole die letzten drei Kapitel, indem du einen echten Data Engineering-Anwendungsfall von DataCamp untersuchst! Du wirst einen ETL-Prozess durchführen und planen, der rohe Kursbewertungsdaten in nützliche Kursempfehlungen für DataCamp-Lernende umwandelt!

Exercise 1: Kursbewertungen Exercise 2: Das Schema erkunden Exercise 3: Die Tabelle abfragen Exercise 4: Durchschnittliche Bewertung pro Kurs Exercise 5: Von Bewertungen bis zu Empfehlungen Exercise 6: Beschädigte Daten herausfiltern Exercise 7: Die Empfehlungstransformation nutzen Exercise 8: Tägliche Aufgaben planen Exercise 9: Die Zieltabelle Exercise 10: Den DAG definieren Exercise 11: Den DAG aktivieren Exercise 12: Empfehlungen abfragen Exercise 13: Glückwunsch!