IniziaInizia gratis

Imputazione con random forest

Un approccio di Machine Learning all’imputazione può essere sia più accurato sia più semplice da implementare rispetto ai modelli statistici tradizionali. Per cominciare, non richiede di specificare le relazioni tra le variabili. Inoltre, modelli di Machine Learning come le random forest riescono a scoprire relazioni molto complesse e non lineari e a sfruttarle per prevedere i valori mancanti.

In questo esercizio farai conoscenza con il pacchetto missForest, che costruisce una random forest separata per prevedere, una alla volta, i valori mancanti di ciascuna variabile. Eseguirai la funzione di imputazione sui dati dei film biografici, biopics, con cui hai già lavorato in questo corso, e poi estrarrai sia i dati riempiti sia le stime degli errori di imputazione.

Pronti a piantare qualche random forest!

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il pacchetto missForest.
  • Usa missForest() per imputare i valori mancanti in biopics; assegna il risultato a imp_res.
  • Estrai l’insieme di dati imputato da imp_res, assegnalo a imp_data e verifica che il numero di valori mancanti sia effettivamente zero.
  • Estrai l’errore di imputazione stimato da imp_res, assegnalo a imp_err e stampalo in console.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)
Modifica ed esegui il codice