MulaiMulai sekarang secara gratis

Mencari Pola Ketidaklengkapan yang Dapat Diprediksi

Jika data hilang secara benar-benar acak (missing completely at random), maka Anda tidak akan dapat memprediksi kapan suatu variabel hilang berdasarkan data lainnya. Oleh karena itu, jika Anda dapat memprediksi hilangnya data, maka data tersebut tidak hilang secara benar-benar acak. Jadi, mari gunakan fungsi glm() untuk menyesuaikan regresi logistik, mencari pola hilangnya data berdasarkan keterjangkauan (affordability) pada variabel mort yang Anda buat sebelumnya. Jika Anda tidak menemukan struktur pada data yang hilang—yakni, koefisien kemiringan tidak signifikan—itu tidak berarti Anda telah membuktikan bahwa data hilang secara acak, tetapi hal tersebut masuk akal (plausible).

Latihan ini adalah bagian dari kursus

Pemrosesan Data yang Dapat Diskalakan di R

Lihat Kursus

Petunjuk latihan

  • Buat variabel yang menunjukkan apakah "borrower_race" hilang (sama dengan 9) pada data hipotek.
  • Buat variabel faktor dari kolom "affordability".
  • Regresikan affordability_factor pada borrower_race_ind dan panggil summary() atasnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9

# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])

# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))
Edit dan Jalankan Kode