Gestire i dati mancanti
Alcuni potenziali donatori hanno il dato age mancante. Purtroppo, R esclude tutti i casi con valori NA quando costruisce un modello di regressione.
Una soluzione è sostituire, o imputare, i valori mancanti con un valore stimato. Dopo averlo fatto, puoi anche creare un indicatore di dato mancante per modellare la possibilità che i casi con dati mancanti siano in qualche modo diversi da quelli completi.
Il data frame donors è caricato nel tuo workspace.
Questo esercizio fa parte del corso
Apprendimento supervisionato in R: Classificazione
Istruzioni dell'esercizio
- Usa
summary()sudonors$ageper trovare l'età media dei potenziali donatori con dati non mancanti. - Usa
ifelse()e il testis.na(donors$age)per imputare la media (arrotondata a 2 cifre decimali) nei casi conagemancante. Assicurati anche di ignorare gliNA. - Crea una variabile dummy binaria chiamata
missing_ageche indichi la presenza di dati mancanti usando un'altra chiamata aifelse()e lo stesso test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___