Compromesso tra velocità e accuratezza
Nell’ultimo video hai visto che ci sono due leve che puoi regolare per influenzare le prestazioni dei random forest:
- Numero di alberi decisionali in ogni foresta.
- Numero di variabili usate per lo splitting all’interno degli alberi decisionali.
Aumentare ciascuna di queste può migliorare l’accuratezza del modello di imputazione, ma richiederà anche più tempo di esecuzione. In questo esercizio metterai alla prova queste idee eseguendo missForest() sui dati biopics due volte con impostazioni diverse. Mentre segui le istruzioni, fai attenzione agli errori che stamperai e al tempo impiegato dal codice per l’esecuzione.
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Set number of trees to 5 and number of variables used for splitting to 2
imp_res <- missForest(biopics, ___ = ___, ___ = ___)
# Print the resulting imputation errors
print(___)