Validação de um pipeline de dados em "pontos de verificação"
Neste exercício, você trabalhará com um pipeline de dados que extrai dados fiscais de um arquivo CSV, cria uma nova coluna, filtra as linhas com base na renda média tributável e persiste os dados em um arquivo parquet.
pandas
foi carregado como pd
, e as funções extract()
, transform()
e load()
já foram definidas. Você usará essas funções para validar o pipeline de dados em vários pontos de verificação durante sua execução.
Este exercício faz parte do curso
ETL e ELT em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")