Cancellerai?
Prima di eliminare del tutto i valori mancanti, devi considerare i fattori che giustificano l’eliminazione. Il più semplice è la quantità di dati mancanti. Motivi più complessi che influenzano la mancanza possono richiedere conoscenze del dominio. In questo esercizio, individuerai il motivo della mancanza e poi applicherai il tipo di eliminazione più appropriato.
Per iniziare userai msno.matrix() e msno.heatmap() per visualizzare la mancanza e la correlazione tra variabili con dati mancanti. Poi determinerai il pattern della mancanza. Infine, eliminerai in base al tipo di mancanza.
Il DataFrame diabetes è già stato caricato per te.
Nota: abbiamo usato una funzione proprietaria display() al posto di plt.show() per rendere più semplice la visualizzazione dell’output.
Questo esercizio fa parte del corso
Gestire i dati mancanti in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Visualize the missingness in the data
___.___(___)
# Display nullity matrix
display("/usr/local/share/datasets/matrix_diabetes.png")