IniziaInizia gratis

Convalidare una data pipeline ai "checkpoint"

In questo esercizio lavorerai con una data pipeline che estrae dati fiscali da un file CSV, crea una nuova colonna, filtra le righe in base al reddito imponibile medio e salva i dati in un file parquet.

pandas è stato caricato come pd e le funzioni extract(), transform() e load() sono già state definite. Userai queste funzioni per convalidare la data pipeline in vari checkpoint durante la sua esecuzione.

Questo esercizio fa parte del corso

ETL and ELT in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)

# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")
Modifica ed esegui il codice