Apakah Anda akan menghapusnya?
Sebelum menghapus nilai hilang sepenuhnya, Anda harus mempertimbangkan faktor-faktor untuk penghapusan. Faktor paling sederhana yang perlu dipertimbangkan adalah ukuran data yang hilang. Alasan yang lebih kompleks yang memengaruhi missingness mungkin memerlukan pengetahuan domain. Dalam latihan ini, Anda akan mengidentifikasi alasan missingness lalu melakukan penghapusan yang sesuai.
Anda akan terlebih dahulu menggunakan msno.matrix() dan msno.heatmap() untuk memvisualisasikan missingness serta korelasi antar variabel yang memiliki data hilang. Selanjutnya, Anda akan menentukan pola dalam missingness. Terakhir, Anda akan melakukan penghapusan bergantung pada jenis missingness.
DataFrame diabetes telah dimuat untuk Anda.
Catat bahwa kami menggunakan fungsi proprietari display() alih-alih plt.show() agar Anda lebih mudah melihat output.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Visualize the missingness in the data
___.___(___)
# Display nullity matrix
display("/usr/local/share/datasets/matrix_diabetes.png")