Estrazione dalla distribuzione condizionata

Chiamare semplicemente predict() su un modello restituirà sempre lo stesso valore per gli stessi valori dei predittori. Questo porta a una bassa variabilità nei dati imputati. Per aumentarla, in modo che l’imputazione replichi la variabilità dei dati originali, possiamo estrarre dalla distribuzione condizionata. In pratica, invece di prevedere sempre 1 ogni volta che il modello produce una probabilità maggiore di 0.5, possiamo estrarre la previsione da una distribuzione binomiale descritta dalla probabilità restituita dal modello.

Lavorerai sul codice che hai scritto nell’esercizio precedente. È stata rimossa la seguente riga:

  preds <- ifelse(preds >= 0.5, 1, 0)

Il tuo compito è sostituirla con un’estrazione da una distribuzione binomiale. È solo una riga di codice!

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza corso

Istruzioni dell'esercizio

Sovrascrivi preds campionando da una distribuzione binomiale.
Passa la lunghezza di preds come primo argomento.
Imposta size a 1.
Imposta prob alle probabilità restituite dal modello.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

 impute_logreg <- function(df, formula) {
  # Extract name of response variable
  imp_var <- as.character(formula[2])
  # Save locations where the response is missing
  missing_imp_var <- is.na(df[imp_var])
  # Fit logistic regression mode
  logreg_model <- glm(formula, data = df, family = binomial)
  # Predict the response
  preds <- predict(logreg_model, type = "response")
  # Sample the predictions from binomial distribution
  preds <- ___(___, size = ___, prob = ___)
  # Impute missing values with predictions
  df[missing_imp_var, imp_var] <- preds[missing_imp_var]
  return(df)
}

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo scoprirai perché i dati mancanti possono rappresentare un rischio quando analizzi un insieme di dati. Ti verranno presentati i tre meccanismi dei dati mancanti e imparerai a riconoscerli usando test statistici e strumenti di visualizzazione.

Exercise 1: Dati mancanti: cosa può andare storto Exercise 2: Regressione lineare con dati incompleti Exercise 3: Analizzare l'output della regressione Exercise 4: Confrontare i modelli Exercise 5: Meccanismi dei dati mancanti Exercise 6: Riconoscere i meccanismi dei dati mancanti Exercise 7: t-test per MAR: preparazione dei dati Exercise 8: t-test per MAR: interpretazione Exercise 9: Visualizzare i pattern dei dati mancanti Exercise 10: Grafico di aggregazione Exercise 11: Spine plot Exercise 12: Grafico a mosaico

Conosci la tassonomia dei metodi di imputazione e impara tre tecniche basate su donatori: imputazione con media, hot-deck e k-Nearest-Neighbors. Guarderai sotto il cofano per vedere come funzionano questi metodi, per poi imparare ad applicarli a un insieme di dati meteorologici tropicali reali. Lungo il percorso, scoprirai anche trucchi utili per farli funzionare ancora meglio sui tuoi problemi.

Exercise 1: Imputazione con media Exercise 2: Capire i rischi della imputazione con la media Exercise 3: Imputare la temperatura con la media Exercise 4: Valutare la qualità dell'imputazione con il margin plot Exercise 5: Imputazione hot-deck Exercise 6: Hot-deck semplice Exercise 7: Hot-deck: trucchi e consigli I — imputazione per domini Exercise 8: Hot-deck: trucchi e consigli II — ordinare per variabili correlate Exercise 9: Imputazione con k-Nearest Neighbors Exercise 10: Scegliere il numero di vicini Exercise 11: kNN: trucchi e consigli I — pesare i donatori Exercise 12: Trucchi e consigli per kNN II: ordinare le variabili

È il momento di imparare a usare modelli statistici e di Machine Learning, come regressione lineare, regressione logistica e random forests, per imputare i dati mancanti. In questo capitolo analizzerai come i modelli producono le loro previsioni e userai questa conoscenza per estrarre i valori imputati da distribuzioni condizionali. Questo è importante perché garantisce imputazioni più varie e plausibili, rendendole più simili ai dati reali.

Exercise 1: Approccio di imputazione basato su modello Exercise 2: Imputazione con regressione lineare Exercise 3: Inizializzare i valori mancanti e iterare sulle variabili Exercise 4: Rilevare la convergenza Exercise 5: Replica della variabilità dei dati Exercise 6: Imputazione con regressione logistica Exercise 7: Estrazione dalla distribuzione condizionata

Esercizio attuale

Exercise 8: Imputazione basata su modelli con variabili di tipi diversi Exercise 9: Imputazione basata su alberi Exercise 10: Imputazione con random forest Exercise 11: Errori di imputazione per variabile Exercise 12: Compromesso tra velocità e accuratezza

I valori imputati non sono scolpiti nella pietra. Sono solo stime, e le stime comportano una certa incertezza. In questo capitolo finale scoprirai come il bootstrapping e le equazioni concatenate con il pacchetto mice possono essere usati per incorporare l’incertezza dell’imputazione nei tuoi modelli e nelle tue analisi, rendendoli più affidabili e robusti.

Exercise 1: Imputazione multipla con bootstrapping Exercise 2: Racchiudere imputazione e modellazione in una funzione Exercise 3: Eseguire il bootstrap Exercise 4: Intervalli di confidenza con bootstrapping Exercise 5: Imputazione multipla con equazioni a catena Exercise 6: Il flusso di mice: mice - with - pool Exercise 7: Scelta dei modelli predefiniti Exercise 8: Uso della matrice dei predittori Exercise 9: Mettiamo tutto insieme Exercise 10: Analizzare i pattern di dati mancanti Exercise 11: Imputazione e ispezione degli esiti Exercise 12: Inferenza con dati imputati Exercise 13: Considerazioni finali