Compromesso tra velocità e accuratezza

Nell’ultimo video hai visto che ci sono due leve che puoi regolare per influenzare le prestazioni dei random forest:

Numero di alberi decisionali in ogni foresta.
Numero di variabili usate per lo splitting all’interno degli alberi decisionali.

Aumentare ciascuna di queste può migliorare l’accuratezza del modello di imputazione, ma richiederà anche più tempo di esecuzione. In questo esercizio metterai alla prova queste idee eseguendo missForest() sui dati biopics due volte con impostazioni diverse. Mentre segui le istruzioni, fai attenzione agli errori che stamperai e al tempo impiegato dal codice per l’esecuzione.

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Set number of trees to 5 and number of variables used for splitting to 2
imp_res <- missForest(biopics, ___ = ___, ___ = ___)

# Print the resulting imputation errors
print(___)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo scoprirai perché i dati mancanti possono rappresentare un rischio quando analizzi un insieme di dati. Ti verranno presentati i tre meccanismi dei dati mancanti e imparerai a riconoscerli usando test statistici e strumenti di visualizzazione.

Exercise 1: Dati mancanti: cosa può andare storto Exercise 2: Regressione lineare con dati incompleti Exercise 3: Analizzare l'output della regressione Exercise 4: Confrontare i modelli Exercise 5: Meccanismi dei dati mancanti Exercise 6: Riconoscere i meccanismi dei dati mancanti Exercise 7: t-test per MAR: preparazione dei dati Exercise 8: t-test per MAR: interpretazione Exercise 9: Visualizzare i pattern dei dati mancanti Exercise 10: Grafico di aggregazione Exercise 11: Spine plot Exercise 12: Grafico a mosaico

Conosci la tassonomia dei metodi di imputazione e impara tre tecniche basate su donatori: imputazione con media, hot-deck e k-Nearest-Neighbors. Guarderai sotto il cofano per vedere come funzionano questi metodi, per poi imparare ad applicarli a un insieme di dati meteorologici tropicali reali. Lungo il percorso, scoprirai anche trucchi utili per farli funzionare ancora meglio sui tuoi problemi.

Exercise 1: Imputazione con media Exercise 2: Capire i rischi della imputazione con la media Exercise 3: Imputare la temperatura con la media Exercise 4: Valutare la qualità dell'imputazione con il margin plot Exercise 5: Imputazione hot-deck Exercise 6: Hot-deck semplice Exercise 7: Hot-deck: trucchi e consigli I — imputazione per domini Exercise 8: Hot-deck: trucchi e consigli II — ordinare per variabili correlate Exercise 9: Imputazione con k-Nearest Neighbors Exercise 10: Scegliere il numero di vicini Exercise 11: kNN: trucchi e consigli I — pesare i donatori Exercise 12: Trucchi e consigli per kNN II: ordinare le variabili

È il momento di imparare a usare modelli statistici e di Machine Learning, come regressione lineare, regressione logistica e random forests, per imputare i dati mancanti. In questo capitolo analizzerai come i modelli producono le loro previsioni e userai questa conoscenza per estrarre i valori imputati da distribuzioni condizionali. Questo è importante perché garantisce imputazioni più varie e plausibili, rendendole più simili ai dati reali.

Exercise 1: Approccio di imputazione basato su modello Exercise 2: Imputazione con regressione lineare Exercise 3: Inizializzare i valori mancanti e iterare sulle variabili Exercise 4: Rilevare la convergenza Exercise 5: Replica della variabilità dei dati Exercise 6: Imputazione con regressione logistica Exercise 7: Estrazione dalla distribuzione condizionata Exercise 8: Imputazione basata su modelli con variabili di tipi diversi Exercise 9: Imputazione basata su alberi Exercise 10: Imputazione con random forest Exercise 11: Errori di imputazione per variabile Exercise 12: Compromesso tra velocità e accuratezza

Esercizio attuale

I valori imputati non sono scolpiti nella pietra. Sono solo stime, e le stime comportano una certa incertezza. In questo capitolo finale scoprirai come il bootstrapping e le equazioni concatenate con il pacchetto mice possono essere usati per incorporare l’incertezza dell’imputazione nei tuoi modelli e nelle tue analisi, rendendoli più affidabili e robusti.

Exercise 1: Imputazione multipla con bootstrapping Exercise 2: Racchiudere imputazione e modellazione in una funzione Exercise 3: Eseguire il bootstrap Exercise 4: Intervalli di confidenza con bootstrapping Exercise 5: Imputazione multipla con equazioni a catena Exercise 6: Il flusso di mice: mice - with - pool Exercise 7: Scelta dei modelli predefiniti Exercise 8: Uso della matrice dei predittori Exercise 9: Mettiamo tutto insieme Exercise 10: Analizzare i pattern di dati mancanti Exercise 11: Imputazione e ispezione degli esiti Exercise 12: Inferenza con dati imputati Exercise 13: Considerazioni finali