Visualisasikan imputasi
Menganalisis imputasi dan memilih yang terbaik adalah tugas yang memerlukan banyak eksperimen. Penting untuk memastikan data Anda tidak menjadi bias saat melakukan imputasi. Pada dua latihan terakhir ini, Anda membuat 4 imputasi berbeda menggunakan imputasi mean, median, mode, dan pengisian dengan konstanta.
Pada latihan ini, Anda akan membuat scatterplot dari DataFrame yang telah Anda imputasi sebelumnya. Untuk itu, Anda akan membuat dictionary berisi DataFrame dengan key berupa judulnya.
DataFrame diabetes_mean, diabetes_median, diabetes_mode, dan diabetes_constant telah dimuat untuk Anda.
Latihan ini merupakan bagian dari kursus
Menangani Data Hilang di Python
Instruksi latihan
- Buat 4 subplot dengan membuat plot 2 baris dan 2 kolom.
- Buat dictionary
imputationsdengan memasangkan setiap key ke DataFrame yang sesuai. - Lakukan loop atas
axesdanimputations, lalu plot setiap DataFrame dalamimputations. - Atur warna ke
nullitydan judul untuk setiap subplot menjadi nama imputasinya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()
# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___,
'Most Frequent Imputation': ___, 'Constant Imputation': ___}
# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
# Select and also set the title for a DataFrame
imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter',
alpha=0.5, c=___, cmap='rainbow', ax=ax,
colorbar=False, title=___)
plt.show()