Ikuti aliran dana
Dalam latihan ini, Anda bekerja dengan versi lain dari DataFrame banking yang berisi nilai hilang untuk kolom cust_id dan acct_amount.
Anda ingin melakukan analisis tentang berapa banyak pelanggan unik yang dimiliki bank, rata-rata jumlah yang disimpan oleh pelanggan, dan lainnya. Anda tahu bahwa baris dengan cust_id yang hilang tidak banyak membantu, dan bahwa secara rata-rata acct_amount biasanya 5 kali lipat dari inv_amount.
Dalam latihan ini, Anda akan menghapus baris banking dengan cust_id yang hilang, dan mengimputasi nilai hilang pada acct_amount menggunakan pengetahuan domain.
Latihan ini adalah bagian dari kursus
Membersihkan Data di Python
Petunjuk latihan
- Gunakan
.dropna()untuk menghapus nilai hilang pada kolomcust_iddibankingdan simpan hasilnya kebanking_fullid. - Gunakan
inv_amountuntuk menghitung estimasi nilai akun untukbanking_fulliddengan menetapkan nilainya sama denganinv_amount * 5, lalu tetapkan hasilnya keacct_imp. - Imputasi nilai hilang pada
acct_amountdibanking_fulliddenganacct_impyang baru dibuat menggunakan.fillna().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())