"Kontrol noktalarında" bir veri hattını (pipeline) doğrulama
Bu egzersizde, bir CSV dosyasından vergi verilerini çıkaran, yeni bir sütun oluşturan, ortalama vergilendirilebilir gelire göre satırları filtreleyen ve verileri bir parquet dosyasına yazan bir veri hattı ile çalışacaksın.
pandas pd olarak yüklendi ve extract(), transform() ve load() fonksiyonları zaten tanımlandı. Bu fonksiyonları, yürütme boyunca çeşitli kontrol noktalarında veri hattını doğrulamak için kullanacaksın.
Bu egzersiz
Python ile ETL ve ELT
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")