Scelta dei modelli predefiniti

MICE crea un modello di imputazione separato per ciascuna variabile nei dati. Il tipo di modello dipende dal tipo della variabile considerata. Un modo comune per specificare i tipi di modelli da usare è impostare un modello predefinito per ciascuno dei quattro tipi di variabile.

Puoi farlo passando l'argomento defaultMethod a mice(), che deve essere un vettore di lunghezza 4 contenente i metodi di imputazione predefiniti per:

Variabili continue,
Variabili binarie,
Variabili categoriche (fattori non ordinati),
Variabili fattoriali (fattori ordinati).

In questo esercizio, sfrutterai la documentazione di mice per visualizzare l'elenco dei metodi disponibili e scegliere quelli desiderati da usare nell'algoritmo. Facciamo un po' di model selection!

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza corso

Istruzioni dell'esercizio

Nell'RDocumentation restituita da ?mice, c'è una tabella che contiene la parola chiave per ciascun metodo.
Imputa i dati biopics con mice() usando i seguenti metodi predefiniti, in questo ordine: classification and regression trees, linear discriminant analysis, predictive mean matching, proportional odds model.
Stampa biopics_multiimp per vedere quale metodo è stato usato per ciascuna variabile.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Impute biopics using the methods specified in the instruction
biopics_multiimp <- ___(biopics, m = 20, 
                         defaultMethod = ___)

# Print biopics_multiimp
print(biopics_multiimp)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo scoprirai perché i dati mancanti possono rappresentare un rischio quando analizzi un insieme di dati. Ti verranno presentati i tre meccanismi dei dati mancanti e imparerai a riconoscerli usando test statistici e strumenti di visualizzazione.

Exercise 1: Dati mancanti: cosa può andare storto Exercise 2: Regressione lineare con dati incompleti Exercise 3: Analizzare l'output della regressione Exercise 4: Confrontare i modelli Exercise 5: Meccanismi dei dati mancanti Exercise 6: Riconoscere i meccanismi dei dati mancanti Exercise 7: t-test per MAR: preparazione dei dati Exercise 8: t-test per MAR: interpretazione Exercise 9: Visualizzare i pattern dei dati mancanti Exercise 10: Grafico di aggregazione Exercise 11: Spine plot Exercise 12: Grafico a mosaico

Conosci la tassonomia dei metodi di imputazione e impara tre tecniche basate su donatori: imputazione con media, hot-deck e k-Nearest-Neighbors. Guarderai sotto il cofano per vedere come funzionano questi metodi, per poi imparare ad applicarli a un insieme di dati meteorologici tropicali reali. Lungo il percorso, scoprirai anche trucchi utili per farli funzionare ancora meglio sui tuoi problemi.

Exercise 1: Imputazione con media Exercise 2: Capire i rischi della imputazione con la media Exercise 3: Imputare la temperatura con la media Exercise 4: Valutare la qualità dell'imputazione con il margin plot Exercise 5: Imputazione hot-deck Exercise 6: Hot-deck semplice Exercise 7: Hot-deck: trucchi e consigli I — imputazione per domini Exercise 8: Hot-deck: trucchi e consigli II — ordinare per variabili correlate Exercise 9: Imputazione con k-Nearest Neighbors Exercise 10: Scegliere il numero di vicini Exercise 11: kNN: trucchi e consigli I — pesare i donatori Exercise 12: Trucchi e consigli per kNN II: ordinare le variabili

È il momento di imparare a usare modelli statistici e di Machine Learning, come regressione lineare, regressione logistica e random forests, per imputare i dati mancanti. In questo capitolo analizzerai come i modelli producono le loro previsioni e userai questa conoscenza per estrarre i valori imputati da distribuzioni condizionali. Questo è importante perché garantisce imputazioni più varie e plausibili, rendendole più simili ai dati reali.

Exercise 1: Approccio di imputazione basato su modello Exercise 2: Imputazione con regressione lineare Exercise 3: Inizializzare i valori mancanti e iterare sulle variabili Exercise 4: Rilevare la convergenza Exercise 5: Replica della variabilità dei dati Exercise 6: Imputazione con regressione logistica Exercise 7: Estrazione dalla distribuzione condizionata Exercise 8: Imputazione basata su modelli con variabili di tipi diversi Exercise 9: Imputazione basata su alberi Exercise 10: Imputazione con random forest Exercise 11: Errori di imputazione per variabile Exercise 12: Compromesso tra velocità e accuratezza

I valori imputati non sono scolpiti nella pietra. Sono solo stime, e le stime comportano una certa incertezza. In questo capitolo finale scoprirai come il bootstrapping e le equazioni concatenate con il pacchetto mice possono essere usati per incorporare l’incertezza dell’imputazione nei tuoi modelli e nelle tue analisi, rendendoli più affidabili e robusti.

Exercise 1: Imputazione multipla con bootstrapping Exercise 2: Racchiudere imputazione e modellazione in una funzione Exercise 3: Eseguire il bootstrap Exercise 4: Intervalli di confidenza con bootstrapping Exercise 5: Imputazione multipla con equazioni a catena Exercise 6: Il flusso di mice: mice - with - pool Exercise 7: Scelta dei modelli predefiniti

Esercizio attuale

Exercise 8: Uso della matrice dei predittori Exercise 9: Mettiamo tutto insieme Exercise 10: Analizzare i pattern di dati mancanti Exercise 11: Imputazione e ispezione degli esiti Exercise 12: Inferenza con dati imputati Exercise 13: Considerazioni finali