IniziaInizia gratis

Alla ricerca di dati mancanti prevedibili

Se i dati sono mancanti completamente a caso, non dovresti riuscire a prevedere quando una variabile è mancante in base al resto dei dati. Quindi, se riesci a prevedere la mancanza, i dati non sono mancanti completamente a caso. Usiamo quindi la funzione glm() per adattare una regressione logistica, cercando la mancanza in base all’affordability nella variabile mort che hai creato in precedenza. Se non trovi alcuna struttura nei dati mancanti (cioè, i coefficienti di pendenza non sono significativi), non significa che hai dimostrato che i dati sono mancanti a caso, ma è plausibile.

Questo esercizio fa parte del corso

Elaborazione scalabile dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una variabile che indichi se "borrower_race" è mancante (uguale a 9) nei dati sui mutui.
  • Crea una variabile fattore dalla colonna "affordability".
  • Regrèssa affordability_factor su borrower_race_ind e chiama summary() su di essa.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9

# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])

# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))
Modifica ed esegui il codice