Visualizza le imputazioni
Analizzare le imputazioni e scegliere la migliore richiede molta sperimentazione. È importante assicurarsi che i dati non diventino distorti durante l'imputazione. Negli ultimi due esercizi, hai creato 4 diverse imputazioni usando media, mediana, moda e un valore costante.
In questo esercizio, creerai uno scatterplot dei DataFrame che hai imputato in precedenza. Per farlo, creerai un dizionario dei DataFrame in cui le chiavi corrispondono ai loro titoli.
I DataFrame diabetes_mean, diabetes_median, diabetes_mode e diabetes_constant sono già stati caricati per te.
Questo esercizio fa parte del corso
Gestire i dati mancanti in Python
Istruzioni dell'esercizio
- Crea 4 sottotrame realizzando un grafico con 2 righe e 2 colonne.
- Crea il dizionario
imputationsmappando ogni chiave con il DataFrame corrispondente. - Itera su
axeseimputationse traccia ciascun DataFrame inimputations. - Imposta il colore su
nullitye il titolo di ogni sottotrama al nome dell'imputazione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()
# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___,
'Most Frequent Imputation': ___, 'Constant Imputation': ___}
# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
# Select and also set the title for a DataFrame
imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter',
alpha=0.5, c=___, cmap='rainbow', ax=ax,
colorbar=False, title=___)
plt.show()