Validierung einer Datenpipeline mit Assert
Um Unit-Tests für Datenpipelines zu erstellen, ist es wichtig, sich mit dem Schlüsselwort assert
und der Funktion isinstance()
vertraut zu machen. In dieser Übung übst du die Verwendung dieser beiden Tools, um Komponenten einer Datenpipeline zu validieren.
Die Funktionen extract()
und transform()
wurden für dich bereitgestellt, ebenso wie pandas
, das als pd
importiert wurde. Sowohl extract()
als auch transform()
geben einen DataFrame zurück. Viel Erfolg!
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Validate the number of columns in the DataFrame
____ len(clean_tax_data.columns) == ____