MulaiMulai sekarang secara gratis

Mengganti data kredit yang hilang

Sekarang, Anda perlu memeriksa data yang hilang. Jika Anda menemukan data hilang pada loan_status, Anda tidak akan dapat menggunakan data tersebut untuk memprediksi probability of default karena Anda tidak tahu apakah pinjaman tersebut gagal bayar atau tidak. Data yang hilang pada person_emp_length tidak akan sedestruktif itu, tetapi tetap dapat menyebabkan kesalahan saat pelatihan.

Jadi, periksa data yang hilang pada kolom person_emp_length dan ganti nilai yang hilang dengan median.

Himpunan data cr_loan telah dimuat di workspace.

Latihan ini adalah bagian dari kursus

Pemodelan Risiko Kredit dengan Python

Lihat Kursus

Petunjuk latihan

  • Cetak array nama kolom yang mengandung data hilang menggunakan .isnull().
  • Cetak lima baris teratas dari himpunan data yang memiliki data hilang untuk person_emp_length.
  • Ganti data yang hilang dengan median dari seluruh panjang masa kerja menggunakan .fillna().
  • Buat histogram kolom person_emp_length untuk memeriksa distribusinya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Print a null value column array
print(____.columns[____.____().any()])

# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())

# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)

# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()
Edit dan Jalankan Kode