Isi nilai dummy
Serupa dengan upaya Anda mencari keterkaitan antara nilai hilang pada kolom-kolom, penting juga untuk mencari keterkaitan antara nilai hilang dan nilai tidak hilang di antara kolom. Ini akan membantu Anda mengenali faktor-faktor penyebab missingness dalam data.
Pada gambar di atas, Anda dapat mengamati bahwa nilai hilang pada Serum Insulin tersebar di seluruh rentang nilai BMI. Ini menyiratkan bahwa tidak ada keterkaitan!
Dalam latihan ini, Anda akan menulis fungsi untuk menghasilkan nilai dummy guna membantu membuat scatter plot di atas (pada latihan berikutnya). Operasi untuk menghasilkan nilai dummy mencakup penskalaan nilai acak ke rentang kolom dengan faktor penskalaan dan penggeseran nilai.
Fungsi rand() telah diimpor untuk Anda dari numpy.random.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def fill_dummy_values(df):
df_dummy = df.copy(deep=True)
for col_name in df_dummy:
col = df_dummy[col_name]
# Calculate column range
col_range = ___ - ___
return df_dummy