Testen einer Datenpipeline von Anfang bis Ende

In dieser Übung arbeitest du mit der gleichen Datenpipeline wie zuvor, die Steuerdaten extrahiert, transformiert und lädt. Du wirst üben, diese Pipeline durchgängig zu testen, um sicherzustellen, dass die Lösung mehrmals ausgeführt werden kann, ohne dass die transformierten Daten in der Parkettdatei dupliziert werden.

pandas wurde als pd geladen, und die Funktionen extract(), transform() und load() wurden bereits definiert.

Diese Übung ist Teil des Kurses

ETL und ELT in Python

Kurs anzeigen

Anleitung zur Übung

Führe die ETL-Pipeline dreimal aus, indem du eine for-Schleife verwendest.
Drucke die Form der clean_tax_data in jeder Iteration des Pipelinelaufs.
Lies den DataFrame, der in der Datei "clean_tax_data.parquet" gespeichert ist, in die Variable to_validate.
Gib die Form des to_validate DataFrame aus und vergleiche sie mit der Form von clean_tax_rate, um sicherzustellen, dass die Daten nicht bei jedem Pipelinelauf dupliziert wurden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")

Code bearbeiten und ausführen