Visualisasikan imputasi
Menganalisis imputasi dan memilih yang terbaik adalah tugas yang memerlukan banyak eksperimen. Penting untuk memastikan data Anda tidak menjadi bias saat melakukan imputasi. Pada dua latihan terakhir ini, Anda membuat 4 imputasi berbeda menggunakan imputasi mean, median, mode, dan pengisian dengan konstanta.
Pada latihan ini, Anda akan membuat scatterplot dari DataFrame yang telah Anda imputasi sebelumnya. Untuk itu, Anda akan membuat dictionary berisi DataFrame dengan key berupa judulnya.
DataFrame diabetes_mean, diabetes_median, diabetes_mode, dan diabetes_constant telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang di Python
Petunjuk latihan
- Buat 4 subplot dengan membuat plot 2 baris dan 2 kolom.
- Buat dictionary
imputationsdengan memasangkan setiap key ke DataFrame yang sesuai. - Lakukan loop atas
axesdanimputations, lalu plot setiap DataFrame dalamimputations. - Atur warna ke
nullitydan judul untuk setiap subplot menjadi nama imputasinya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()
# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___,
'Most Frequent Imputation': ___, 'Constant Imputation': ___}
# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
# Select and also set the title for a DataFrame
imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter',
alpha=0.5, c=___, cmap='rainbow', ax=ax,
colorbar=False, title=___)
plt.show()