Visualizza le imputazioni

Analizzare le imputazioni e scegliere la migliore richiede molta sperimentazione. È importante assicurarsi che i dati non diventino distorti durante l'imputazione. Negli ultimi due esercizi, hai creato 4 diverse imputazioni usando media, mediana, moda e un valore costante.

In questo esercizio, creerai uno scatterplot dei DataFrame che hai imputato in precedenza. Per farlo, creerai un dizionario dei DataFrame in cui le chiavi corrispondono ai loro titoli.

I DataFrame diabetes_mean, diabetes_median, diabetes_mode e diabetes_constant sono già stati caricati per te.

Questo esercizio fa parte del corso

Gestire i dati mancanti in Python

Visualizza corso

Istruzioni dell'esercizio

Crea 4 sottotrame realizzando un grafico con 2 righe e 2 colonne.
Crea il dizionario imputations mappando ogni chiave con il DataFrame corrispondente.
Itera su axes e imputations e traccia ciascun DataFrame in imputations.
Imposta il colore su nullity e il titolo di ogni sottotrama al nome dell'imputazione.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()

# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___, 
               'Most Frequent Imputation': ___, 'Constant Imputation': ___}

# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
    # Select and also set the title for a DataFrame
    imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter', 
                          alpha=0.5, c=___, cmap='rainbow', ax=ax, 
                          colorbar=False, title=___)
plt.show()

Modifica ed esegui il codice