BaşlayınÜcretsiz Başlayın

pandas DataFrame'lerini filtreleme

Veri bir kaynak sistemden çıkarıldıktan sonra, sıra dönüştürmeye gelir! Çoğu zaman, kaynak veriler aşağı akış kullanım senaryoları için gerekenden daha fazla bilgi içerebilir. Böyle bir durumda, veri hattının "dönüştürme" aşamasında boyutluluk azaltılmalıdır.

pandas pd olarak içe aktarıldı ve geçirilen yoldan bir DataFrame yüklemek için extract() işlevi kullanılabilir.

Bu egzersiz

Python ile ETL ve ELT

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • extract() işlevini kullanarak "sales_data.parquet" yolunda saklanan DataFrame'i yükle.
  • transform() işlevini, tüm satırları ve "Quantity Ordered" değeri 1'den büyük olan sütunları döndürecek şekilde güncelle.
  • clean_data DataFrame'ini daha da filtreleyerek yalnızca "Order Date", "Quantity Ordered" ve "Purchase Address" sütunlarını dahil et.
  • Filtrelenmiş DataFrame'i döndür.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Kodu Düzenle ve Çalıştır