Das Datenbankschema

Mittlerweile weißt du, dass SQL-Datenbanken immer ein Datenbankschema haben. Im Video über Datenbanken hast du die folgende Übersicht gesehen:

Datenbankschema für Kunden und Bestellungen

In deiner lokalen Umgebung ist eine PostgreSQL-Datenbank eingerichtet, die dieses Datenbankschema enthält. Es wurde mit ein paar Beispieldaten gefüllt. Du kannst pandas nutzen, um die Datenbank mit der Funktion read_sql() abzufragen. Du musst ihr eine Datenbank-Engine übergeben, die für dich definiert wurde und db_engine heißt.

Das Paket pandas, das als pd importiert wird, speichert das Abfrageergebnis in einem DataFrame-Objekt, sodass du nach dem Abrufen der Ergebnisse aus der Datenbank alle DataFrame-Funktionen darauf anwenden kannst.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>

Übungsanweisungen

Vervollständige die Anweisung SELECT, sodass sie die Spalten first_name und last_name aus der Tabelle "Customer" auswählt. Stell sicher, dass du zuerst nach Nachnamen und dann nach Vornamen ordnest.
Verwende die Methode .head(), um die ersten 3 Zeilen von data anzuzeigen.
Nutze .info(), um ein paar allgemeine Informationen über data anzuzeigen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Complete the SELECT statement
data = pd.read_sql("""
SELECT first_name, ____ FROM "____"
ORDER BY ____, ____
""", db_engine)

# Show the first 3 rows of the DataFrame
print(data.head(____))

# Show the info of the DataFrame
print(data.____())

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem ersten Kapitel tauchst du in die Welt des Data Engineering ein! Entdecke die Unterschiede zwischen einem Dateningenieur und einem Data Scientist, verschaff dir einen Überblick über die verschiedenen Tools, die Dateningenieure nutzen, und bekomme ein besseres Verständnis dafür, welche Rolle Cloud-Technologie beim Datenengineering spielt.

Exercise 1: Was ist Data Engineering?Exercise 2: Aufgaben des Dateningenieurs Exercise 3: Dateningenieur oder Data Scientist?Exercise 4: Probleme beim Data Engineering Exercise 5: Tools des Dateningenieurs Exercise 6: Arten von Datenbanken Exercise 7: Aufgaben verarbeiten Exercise 8: Planungstools Exercise 9: Cloud-Anbieter Exercise 10: Warum Cloud Computing?Exercise 11: Die Big Player im Cloud Computing Exercise 12: Cloud-Dienste

Jetzt, wo du die wichtigsten Unterschiede zwischen einem Dateningenieur und einem Data Scientist kennst, ist es an der Zeit, den Werkzeugkasten des Dateningenieurs zu erkunden! Erfahre mehr über die verschiedenen Arten von Datenbanken, die Dateningenieure nutzen, warum die Parallelverarbeitung ein wichtiger Teil ihres Werkzeugkastens ist und wie man Datenverarbeitungsaufgaben mit Hilfe von Scheduling-Frameworks plant.

Exercise 1: Datenbanken Exercise 2: SQL vs. NoSQL Exercise 3: Das Datenbankschema

Aktuelle Übung

Exercise 4: Auf Grundlage von Beziehungen verbinden Exercise 5: Sternschema-Diagramm Exercise 6: Was ist Parallelverarbeitung?Exercise 7: Warum Parallelverarbeitung?Exercise 8: Von der Aufgabe zu den Teilaufgaben Exercise 9: Einen DataFrame verwenden Exercise 10: Frameworks der parallelen Verarbeitung Exercise 11: Spark, Hadoop und Hive Exercise 12: Eine PySpark-Gruppierung Exercise 13: PySpark-Dateien ausführen Exercise 14: Workflow-Planungs-Frameworks Exercise 15: Airflow, Luigi und cron Exercise 16: Airflow-DAGs

Nachdem wir uns mit den Tools der Dateningenieure beschäftigt haben, ist es jetzt an der Zeit, uns die grundlegenden Workflows eines Dateningenieurs anzuschauen! Mit ETL lernst du, wie du Rohdaten aus verschiedenen Quellen extrahierst, diese Rohdaten in verwertbare Erkenntnisse umwandelst und sie in relevante Datenbanken lädst, wo sie dann genutzt werden können!

Exercise 1: Extrahieren Exercise 2: Datenquellen Exercise 3: Aus einer API extrahieren Exercise 4: Aus einer Datenbank lesen Exercise 5: Transformieren Exercise 6: Die Mietkosten aufteilen Exercise 7: Auf Transformationen vorbereiten Exercise 8: Mit Bewertungen verknüpfen Exercise 9: Laden Exercise 10: OLAP oder OLTP Exercise 11: In eine Datei schreiben Exercise 12: In Postgres laden Exercise 13: Nun kommt alles zusammen Exercise 14: Einen DAG definieren Exercise 15: Airflow einrichten Exercise 16: Den DAG interpretieren

Wiederhole die letzten drei Kapitel, indem du einen echten Data Engineering-Anwendungsfall von DataCamp untersuchst! Du wirst einen ETL-Prozess durchführen und planen, der rohe Kursbewertungsdaten in nützliche Kursempfehlungen für DataCamp-Lernende umwandelt!

Exercise 1: Kursbewertungen Exercise 2: Das Schema erkunden Exercise 3: Die Tabelle abfragen Exercise 4: Durchschnittliche Bewertung pro Kurs Exercise 5: Von Bewertungen bis zu Empfehlungen Exercise 6: Beschädigte Daten herausfiltern Exercise 7: Die Empfehlungstransformation nutzen Exercise 8: Tägliche Aufgaben planen Exercise 9: Die Zieltabelle Exercise 10: Den DAG definieren Exercise 11: Den DAG aktivieren Exercise 12: Empfehlungen abfragen Exercise 13: Glückwunsch!