Menyaring DataFrame pandas
Setelah data diekstrak dari sistem sumber, saatnya melakukan transformasi! Sering kali, data sumber memiliki lebih banyak informasi daripada yang diperlukan untuk kasus penggunaan hilir. Jika demikian, dimensi sebaiknya dikurangi selama fase "transform" pada pipeline data.
pandas telah diimpor sebagai pd, dan fungsi extract() tersedia untuk memuat DataFrame dari path yang diteruskan.
Latihan ini adalah bagian dari kursus
ETL dan ELT di Python
Petunjuk latihan
- Gunakan fungsi
extract()untuk memuat DataFrame yang disimpan pada path"sales_data.parquet". - Perbarui fungsi
transform()agar mengembalikan semua baris dan kolom dengan"Quantity Ordered"lebih besar dari 1. - Saring lebih lanjut DataFrame
clean_dataagar hanya menyertakan kolom"Order Date","Quantity Ordered", dan"Purchase Address". - Kembalikan DataFrame yang sudah difilter.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)