Convalidare una data pipeline ai "checkpoint"
In questo esercizio lavorerai con una data pipeline che estrae dati fiscali da un file CSV, crea una nuova colonna, filtra le righe in base al reddito imponibile medio e salva i dati in un file parquet.
pandas è stato caricato come pd e le funzioni extract(), transform() e load() sono già state definite. Userai queste funzioni per convalidare la data pipeline in vari checkpoint durante la sua esecuzione.
Questo esercizio fa parte del corso
ETL and ELT in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")