pandas DataFrame'lerini filtreleme
Veri bir kaynak sistemden çıkarıldıktan sonra, sıra dönüştürmeye gelir! Çoğu zaman, kaynak veriler aşağı akış kullanım senaryoları için gerekenden daha fazla bilgi içerebilir. Böyle bir durumda, veri hattının "dönüştürme" aşamasında boyutluluk azaltılmalıdır.
pandas pd olarak içe aktarıldı ve geçirilen yoldan bir DataFrame yüklemek için extract() işlevi kullanılabilir.
Bu egzersiz
Python ile ETL ve ELT
kursunun bir parçasıdırEgzersiz talimatları
extract()işlevini kullanarak"sales_data.parquet"yolunda saklanan DataFrame'i yükle.transform()işlevini, tüm satırları ve"Quantity Ordered"değeri 1'den büyük olan sütunları döndürecek şekilde güncelle.clean_dataDataFrame'ini daha da filtreleyerek yalnızca"Order Date","Quantity Ordered"ve"Purchase Address"sütunlarını dahil et.- Filtrelenmiş DataFrame'i döndür.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)