Validierung einer Data Pipeline mit assert
Um Unit-Tests für Data Pipelines zu schreiben, ist es wichtig, sich mit dem Schlüsselwort assert und der Funktion isinstance() vertraut zu machen. In dieser Übung übst du den Einsatz dieser beiden Werkzeuge, um Komponenten einer Data Pipeline zu validieren.
Die Funktionen extract() und transform() stehen dir zusammen mit pandas (importiert als pd) zur Verfügung. Sowohl extract() als auch transform() geben ein DataFrame zurück. Viel Erfolg!
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Validate the number of columns in the DataFrame
____ len(clean_tax_data.columns) == ____