MulaiMulai sekarang secara gratis

Ikuti aliran dana

Dalam latihan ini, Anda bekerja dengan versi lain dari DataFrame banking yang berisi nilai hilang untuk kolom cust_id dan acct_amount.

Anda ingin melakukan analisis tentang berapa banyak pelanggan unik yang dimiliki bank, rata-rata jumlah yang disimpan oleh pelanggan, dan lainnya. Anda tahu bahwa baris dengan cust_id yang hilang tidak banyak membantu, dan bahwa secara rata-rata acct_amount biasanya 5 kali lipat dari inv_amount.

Dalam latihan ini, Anda akan menghapus baris banking dengan cust_id yang hilang, dan mengimputasi nilai hilang pada acct_amount menggunakan pengetahuan domain.

Latihan ini adalah bagian dari kursus

Membersihkan Data di Python

Lihat Kursus

Petunjuk latihan

  • Gunakan .dropna() untuk menghapus nilai hilang pada kolom cust_id di banking dan simpan hasilnya ke banking_fullid.
  • Gunakan inv_amount untuk menghitung estimasi nilai akun untuk banking_fullid dengan menetapkan nilainya sama dengan inv_amount * 5, lalu tetapkan hasilnya ke acct_imp.
  • Imputasi nilai hilang pada acct_amount di banking_fullid dengan acct_imp yang baru dibuat menggunakan .fillna().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])

# Compute estimated acct_amount
acct_imp = ____

# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})

# Print number of missing values
print(banking_imputed.isna().sum())
Edit dan Jalankan Kode