Imputazione con random forest
Un approccio di Machine Learning all’imputazione può essere sia più accurato sia più semplice da implementare rispetto ai modelli statistici tradizionali. Per cominciare, non richiede di specificare le relazioni tra le variabili. Inoltre, modelli di Machine Learning come le random forest riescono a scoprire relazioni molto complesse e non lineari e a sfruttarle per prevedere i valori mancanti.
In questo esercizio farai conoscenza con il pacchetto missForest, che costruisce una random forest separata per prevedere, una alla volta, i valori mancanti di ciascuna variabile. Eseguirai la funzione di imputazione sui dati dei film biografici, biopics, con cui hai già lavorato in questo corso, e poi estrarrai sia i dati riempiti sia le stime degli errori di imputazione.
Pronti a piantare qualche random forest!
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Carica il pacchetto
missForest. - Usa
missForest()per imputare i valori mancanti inbiopics; assegna il risultato aimp_res. - Estrai l’insieme di dati imputato da
imp_res, assegnalo aimp_datae verifica che il numero di valori mancanti sia effettivamente zero. - Estrai l’errore di imputazione stimato da
imp_res, assegnalo aimp_erre stampalo in console.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the missForest package
___
# Impute biopics data using missForest
imp_res <- ___(___)
# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))
# Extract and print imputation errors
imp_err <- imp_res$___
print(___)