Validierung der in eine Postgres-Datenbank geladenen Daten
In dieser Übung kannst du endlich eine Datenpipeline von Anfang bis Ende aufbauen. Diese Pipeline extrahiert die Testergebnisse von Schulen aus einer JSON-Datei und wandelt die Daten um, um Zeilen mit fehlenden Ergebnissen zu löschen. Außerdem werden sie nach der Stadt, in der sie sich befinden, auf der Grundlage ihrer Gesamtpunktzahl eingestuft. Schließlich wird der transformierte Datensatz in einer Postgres-Datenbank gespeichert.
Um dir einen ersten Überblick zu verschaffen, wurden die Funktionen extract()
und transform()
wie folgt aufgebaut und verwendet. Darüber hinaus wurde pandas
als pd
importiert. Viel Glück!
# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
def load(clean_data, con_engine):
# Store the data in the schools database
clean_data.____(
name="scores_by_city",
con=con_engine,
____="____", # Make sure to replace existing data
index=True,
index_label="school_id"
)