Aan de slagGa gratis aan de slag

Data valideren die is geladen in een Postgres-database

In deze oefening bouw je eindelijk een end-to-end datapijplijn. Deze pijplijn extraheert testscores van scholen uit een JSON-bestand en transformeert de data door rijen met ontbrekende scores te verwijderen. Daarnaast krijgt elke school een ranking binnen de stad waarin ze zich bevindt, op basis van de totaalscores. Tot slot wordt de getransformeerde gegevensset opgeslagen in een Postgres-database.

Om je op weg te helpen zijn de functies extract() en transform() al gebouwd en zoals hieronder gebruikt. Daarnaast is pandas geïmporteerd als pd. Succes!

# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def load(clean_data, con_engine):
	# Store the data in the schools database
    clean_data.____(
    	name="scores_by_city",
		con=con_engine,
		____="____",  # Make sure to replace existing data
		index=True,
		index_label="school_id"
    )
Code bewerken en uitvoeren