Veri hattını uçtan uca test etme
Bu egzersizde, daha öncekiyle aynı veri hattı üzerinde çalışacaksın: vergi verilerini çıkaran, dönüştüren ve yükleyen bir yapı. Bu hattı uçtan uca test ederek, çözümün birden çok kez çalıştırılabildiğinden ve parquet dosyasında dönüştürülmüş verilerin yinelenmediğinden emin olmayı pratik edeceksin.
pandas pd olarak yüklendi ve extract(), transform() ve load() fonksiyonları zaten tanımlandı.
Bu egzersiz
Python ile ETL ve ELT
kursunun bir parçasıdırEgzersiz talimatları
- ETL hattını bir
fordöngüsü kullanarak üç kez çalıştır. - Hattın her yinelemesinde
clean_tax_data'nın şeklini (shape) yazdır. "clean_tax_data.parquet"dosyasında saklanan DataFrame'ito_validatedeğişkenine oku.- Her çalıştırmada verinin yinelenmediğinden emin olmak için
to_validateDataFrame'inin şeklini çıktıya ver ve bunuclean_tax_rate'in şekliyle karşılaştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")