Validierung der in eine Postgres-Datenbank geladenen Daten
In dieser Übung kannst du endlich eine Datenpipeline von Anfang bis Ende aufbauen. Diese Pipeline extrahiert die Testergebnisse von Schulen aus einer JSON Datei und transformiert die Daten, um Zeilen mit fehlenden Ergebnissen zu löschen. Außerdem werden sie nach der Stadt, in der sie sich befinden, auf der Grundlage ihrer Gesamtpunktzahl eingestuft. Schließlich wird der transformierte Datensatz in einer Postgres-Datenbank gespeichert.
Um dir einen ersten Eindruck zu vermitteln, wurden die Funktionen extract()
und transform()
wie folgt aufgebaut und verwendet. Darüber hinaus wurde pandas
als pd
importiert. Viel Glück!
# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
def load(clean_data, con_engine):
# Store the data in the schools database
clean_data.____(
name="scores_by_city",
con=con_engine,
____="____", # Make sure to replace existing data
index=True,
index_label="school_id"
)