Menyaring DataFrame pandas
Setelah data diekstrak dari sistem sumber, saatnya melakukan transformasi! Sering kali, data sumber memiliki lebih banyak informasi daripada yang diperlukan untuk kasus penggunaan hilir. Jika demikian, dimensi sebaiknya dikurangi selama fase "transform" pada pipeline data.
pandas telah diimpor sebagai pd, dan fungsi extract() tersedia untuk memuat DataFrame dari path yang diteruskan.
Latihan ini merupakan bagian dari kursus
ETL dan ELT di Python
Instruksi latihan
- Gunakan fungsi
extract()untuk memuat DataFrame yang disimpan pada path"sales_data.parquet". - Perbarui fungsi
transform()agar mengembalikan semua baris dan kolom dengan"Quantity Ordered"lebih besar dari 1. - Saring lebih lanjut DataFrame
clean_dataagar hanya menyertakan kolom"Order Date","Quantity Ordered", dan"Purchase Address". - Kembalikan DataFrame yang sudah difilter.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)