LoslegenKostenlos loslegen

Validierung der in eine Postgres-Datenbank geladenen Daten

In dieser Übung kannst du endlich eine Datenpipeline von Anfang bis Ende aufbauen. Diese Pipeline extrahiert die Testergebnisse von Schulen aus einer JSON-Datei und wandelt die Daten um, um Zeilen mit fehlenden Ergebnissen zu löschen. Außerdem werden sie nach der Stadt, in der sie sich befinden, auf der Grundlage ihrer Gesamtpunktzahl eingestuft. Schließlich wird der transformierte Datensatz in einer Postgres-Datenbank gespeichert.

Um dir einen ersten Überblick zu verschaffen, wurden die Funktionen extract() und transform() wie folgt aufgebaut und verwendet. Darüber hinaus wurde pandas als pd importiert. Viel Glück!

# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

Diese Übung ist Teil des Kurses

ETL und ELT in Python

Kurs anzeigen

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

def load(clean_data, con_engine):
	# Store the data in the schools database
    clean_data.____(
    	name="scores_by_city",
		con=con_engine,
		____="____",  # Make sure to replace existing data
		index=True,
		index_label="school_id"
    )
Code bearbeiten und ausführen