Gestire i dati mancanti

Alcuni potenziali donatori hanno il dato age mancante. Purtroppo, R esclude tutti i casi con valori NA quando costruisce un modello di regressione.

Una soluzione è sostituire, o imputare, i valori mancanti con un valore stimato. Dopo averlo fatto, puoi anche creare un indicatore di dato mancante per modellare la possibilità che i casi con dati mancanti siano in qualche modo diversi da quelli completi.

Il data frame donors è caricato nel tuo workspace.

Questo esercizio fa parte del corso

Apprendimento supervisionato in R: Classificazione

Visualizza il corso

Istruzioni dell'esercizio

Usa summary() su donors$age per trovare l'età media dei potenziali donatori con dati non mancanti.
Usa ifelse() e il test is.na(donors$age) per imputare la media (arrotondata a 2 cifre decimali) nei casi con age mancante. Assicurati anche di ignorare gli NA.
Crea una variabile dummy binaria chiamata missing_age che indichi la presenza di dati mancanti usando un'altra chiamata a ifelse() e lo stesso test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___

Modifica ed esegui il codice