MulaiMulai sekarang secara gratis

Menyaring DataFrame pandas

Setelah data diekstrak dari sistem sumber, saatnya melakukan transformasi! Sering kali, data sumber memiliki lebih banyak informasi daripada yang diperlukan untuk kasus penggunaan hilir. Jika demikian, dimensi sebaiknya dikurangi selama fase "transform" pada pipeline data.

pandas telah diimpor sebagai pd, dan fungsi extract() tersedia untuk memuat DataFrame dari path yang diteruskan.

Latihan ini adalah bagian dari kursus

ETL dan ELT di Python

Lihat Kursus

Petunjuk latihan

  • Gunakan fungsi extract() untuk memuat DataFrame yang disimpan pada path "sales_data.parquet".
  • Perbarui fungsi transform() agar mengembalikan semua baris dan kolom dengan "Quantity Ordered" lebih besar dari 1.
  • Saring lebih lanjut DataFrame clean_data agar hanya menyertakan kolom "Order Date", "Quantity Ordered", dan "Purchase Address".
  • Kembalikan DataFrame yang sudah difilter.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Edit dan Jalankan Kode