Spark, Hadoop und Hive

Im letzten Video hast du schon einige Open-Source-Projekte kennengelernt. Zu ihnen gehören Hadoop, Hive und PySpark. Es ist echt leicht, diese Projekte zu verwechseln.

Sie haben einige Dinge gemeinsam: Sie werden aktuell alle von der Apache Software Foundation verwaltet und wurden schon für komplexe Parallelverarbeitungen genutzt. Kannst du die Unterschiede erkennen?

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem ersten Kapitel tauchst du in die Welt des Data Engineering ein! Entdecke die Unterschiede zwischen einem Dateningenieur und einem Data Scientist, verschaff dir einen Überblick über die verschiedenen Tools, die Dateningenieure nutzen, und bekomme ein besseres Verständnis dafür, welche Rolle Cloud-Technologie beim Datenengineering spielt.

Exercise 1: Was ist Data Engineering?Exercise 2: Aufgaben des Dateningenieurs Exercise 3: Dateningenieur oder Data Scientist?Exercise 4: Probleme beim Data Engineering Exercise 5: Tools des Dateningenieurs Exercise 6: Arten von Datenbanken Exercise 7: Aufgaben bearbeiten Exercise 8: Planungstools Exercise 9: Cloud-Anbieter Exercise 10: Warum Cloud Computing?Exercise 11: Die Big Player im Cloud Computing Exercise 12: Cloud-Dienste

Jetzt, wo du die wichtigsten Unterschiede zwischen einem Dateningenieur und einem Data Scientist kennst, ist es an der Zeit, den Werkzeugkasten des Dateningenieurs zu erkunden! Erfahre mehr über die verschiedenen Arten von Datenbanken, die Dateningenieure nutzen, warum die Parallelverarbeitung ein wichtiger Teil ihres Werkzeugkastens ist und wie man Datenverarbeitungsaufgaben mit Hilfe von Scheduling-Frameworks plant.

Exercise 1: Datenbanken Exercise 2: SQL vs. NoSQL Exercise 3: Das Datenbankschema Exercise 4: Auf Grundlage von Beziehungen verbinden Exercise 5: Sternschema-Diagramm Exercise 6: Was ist Parallelverarbeitung?Exercise 7: Warum Parallelverarbeitung?Exercise 8: Von der Aufgabe zu den Teilaufgaben Exercise 9: Einen DataFrame verwenden Exercise 10: Frameworks der parallelen Verarbeitung Exercise 11: Spark, Hadoop und Hive

Aktuelle Übung

Exercise 12: Eine PySpark-Gruppierung Exercise 13: PySpark-Dateien ausführen Exercise 14: Workflow-Planungs-Frameworks Exercise 15: Airflow, Luigi und cron Exercise 16: Airflow-DAGs

Nachdem wir uns mit den Tools der Dateningenieure beschäftigt haben, ist es jetzt an der Zeit, uns die grundlegenden Workflows eines Dateningenieurs anzuschauen! Mit ETL lernst du, wie du Rohdaten aus verschiedenen Quellen extrahierst, diese Rohdaten in verwertbare Erkenntnisse umwandelst und sie in relevante Datenbanken lädst, wo sie dann genutzt werden können!

Exercise 1: Extrahieren Exercise 2: Datenquellen Exercise 3: Aus einer API extrahieren Exercise 4: Aus einer Datenbank lesen Exercise 5: Transformieren Exercise 6: Die Mietkosten aufteilen Exercise 7: Auf Transformationen vorbereiten Exercise 8: Mit Bewertungen verknüpfen Exercise 9: Laden Exercise 10: OLAP oder OLTP Exercise 11: In eine Datei schreiben Exercise 12: In Postgres laden Exercise 13: Nun kommt alles zusammen Exercise 14: Einen DAG definieren Exercise 15: Airflow einrichten Exercise 16: Den DAG interpretieren

Schließ die letzten drei Kapitel ab, indem du einen echten Data Engineering-Anwendungsfall von DataCamp machst! Du wirst einen ETL-Prozess durchführen und planen, der rohe Kursbewertungsdaten in nützliche Kursempfehlungen für DataCamp-Lernende umwandelt!

Exercise 1: Kursbewertungen Exercise 2: Das Schema erkunden Exercise 3: Die Tabelle abfragen Exercise 4: Durchschnittliche Bewertung pro Kurs Exercise 5: Von Bewertungen bis zu Empfehlungen Exercise 6: Beschädigte Daten herausfiltern Exercise 7: Die Empfehlungstransformation nutzen Exercise 8: Tägliche Aufgaben planen Exercise 9: Die Zieltabelle Exercise 10: Den DAG definieren Exercise 11: Den DAG aktivieren Exercise 12: Empfehlungen abfragen Exercise 13: Glückwunsch!