BaşlayınÜcretsiz Başlayın

Veri hattını uçtan uca test etme

Bu egzersizde, daha öncekiyle aynı veri hattı üzerinde çalışacaksın: vergi verilerini çıkaran, dönüştüren ve yükleyen bir yapı. Bu hattı uçtan uca test ederek, çözümün birden çok kez çalıştırılabildiğinden ve parquet dosyasında dönüştürülmüş verilerin yinelenmediğinden emin olmayı pratik edeceksin.

pandas pd olarak yüklendi ve extract(), transform() ve load() fonksiyonları zaten tanımlandı.

Bu egzersiz

Python ile ETL ve ELT

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • ETL hattını bir for döngüsü kullanarak üç kez çalıştır.
  • Hattın her yinelemesinde clean_tax_data'nın şeklini (shape) yazdır.
  • "clean_tax_data.parquet" dosyasında saklanan DataFrame'i to_validate değişkenine oku.
  • Her çalıştırmada verinin yinelenmediğinden emin olmak için to_validate DataFrame'inin şeklini çıktıya ver ve bunu clean_tax_rate'in şekliyle karşılaştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")
Kodu Düzenle ve Çalıştır