Testen einer Datenpipeline von Anfang bis Ende
In dieser Übung arbeitest du mit der gleichen Datenpipeline wie zuvor, die Steuerdaten extrahiert, transformiert und lädt. Du wirst üben, diese Pipeline durchgängig zu testen, um sicherzustellen, dass die Lösung mehrmals ausgeführt werden kann, ohne dass die transformierten Daten in der Parkettdatei dupliziert werden.
pandas
wurde als pd
geladen, und die Funktionen extract()
, transform()
und load()
wurden bereits definiert.
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Anleitung zur Übung
- Führe die ETL-Pipeline dreimal aus, indem du eine
for
-Schleife verwendest. - Drucke die Form der
clean_tax_data
in jeder Iteration des Pipelinelaufs. - Lies den DataFrame, der in der Datei
"clean_tax_data.parquet"
gespeichert ist, in die Variableto_validate
. - Gib die Form des
to_validate
DataFrame aus und vergleiche sie mit der Form vonclean_tax_rate
, um sicherzustellen, dass die Daten nicht bei jedem Pipelinelauf dupliziert wurden.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")