Mengambil sampel dari distribusi kondisional

Memanggil predict() pada sebuah model akan selalu mengembalikan nilai yang sama untuk nilai prediktor yang sama. Ini menghasilkan keragaman yang kecil pada data imputasi. Untuk meningkatkannya, agar imputasi mereplikasi keragaman dari data asli, kita dapat mengambil sampel dari distribusi kondisional. Artinya, alih-alih selalu memprediksi 1 setiap kali model menghasilkan probabilitas lebih besar dari 0,5, kita dapat mengambil prediksi dari distribusi binomial yang ditentukan oleh probabilitas yang dikembalikan model.

Anda akan bekerja pada kode yang telah Anda tulis di latihan sebelumnya. Baris berikut telah dihapus:

  preds <- ifelse(preds >= 0.5, 1, 0)

Tugas Anda adalah menggantinya dengan pengambilan sampel dari distribusi binomial. Cukup satu baris kode!

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Instruksi latihan

Timpa preds dengan mengambil sampel dari distribusi binomial.
Berikan panjang preds sebagai argumen pertama.
Atur size ke 1.
Atur prob ke probabilitas yang dikembalikan oleh model.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

 impute_logreg <- function(df, formula) {
  # Extract name of response variable
  imp_var <- as.character(formula[2])
  # Save locations where the response is missing
  missing_imp_var <- is.na(df[imp_var])
  # Fit logistic regression mode
  logreg_model <- glm(formula, data = df, family = binomial)
  # Predict the response
  preds <- predict(logreg_model, type = "response")
  # Sample the predictions from binomial distribution
  preds <- ___(___, size = ___, prob = ___)
  # Impute missing values with predictions
  df[missing_imp_var, imp_var] <- preds[missing_imp_var]
  return(df)
}

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mengetahui mengapa data hilang dapat menjadi risiko saat menganalisis himpunan data. Anda akan diperkenalkan pada tiga mekanisme data hilang dan mempelajari cara mengenalinya menggunakan uji statistik dan alat visualisasi.

Exercise 1: Data hilang: apa saja yang bisa salah Exercise 2: Regresi linear dengan data tidak lengkap Exercise 3: Menganalisis keluaran regresi Exercise 4: Membandingkan model Exercise 5: Mekanisme data hilang Exercise 6: Mengenali mekanisme data hilang Exercise 7: uji t untuk MAR: persiapan data Exercise 8: uji t untuk MAR: interpretasi Exercise 9: Memvisualisasikan pola data hilang Exercise 10: Plot agregasi Exercise 11: Spine plot Exercise 12: Plot mosaik

Kenali taksonomi metode imputasi dan pelajari tiga teknik berbasis donor: imputasi rata-rata, hot-deck, dan k-Nearest-Neighbors. Anda akan melihat cara kerja metode-metode ini di balik layar, sebelum mempelajari cara menerapkannya pada himpunan data cuaca tropis dunia nyata. Sepanjang proses, Anda juga akan mempelajari kiat berguna yang dapat Anda gunakan untuk membuatnya bekerja lebih baik bagi permasalahan Anda.

Exercise 1: Imputasi mean Exercise 2: Mencium bahaya imputasi rata-rata Exercise 3: Imputasi rata-rata untuk temperatur Exercise 4: Menilai kualitas imputasi dengan margin plot Exercise 5: Imputasi hot-deck Exercise 6: Hot-deck standar Exercise 7: Trik & kiat hot-deck I: imputasi di dalam domain Exercise 8: Trik & kiat hot-deck II: mengurutkan berdasarkan variabel berkorelasi Exercise 9: Imputasi k-Nearest-Neighbors Exercise 10: Memilih jumlah tetangga Exercise 11: Trik & kiat kNN I: pembobotan donor Exercise 12: kNN: kiat & trik II — mengurutkan variabel

Saatnya mempelajari cara menggunakan model statistik dan Machine Learning, seperti regresi linear, regresi logistik, dan random forest, untuk melakukan imputasi data hilang. Di bab ini, Anda akan menelaah bagaimana model membuat prediksinya dan menggunakan pengetahuan tersebut untuk mengambil nilai hasil imputasi dari sebaran bersyarat. Hal ini penting karena memastikan hasil imputasi Anda lebih beragam dan masuk akal, sehingga lebih menyerupai data sebenarnya.

Exercise 1: Pendekatan imputasi berbasis model Exercise 2: Imputasi regresi linear Exercise 3: Menginisialisasi nilai yang hilang & iterasi atas variabel Exercise 4: Mendeteksi konvergensi Exercise 5: Mereplikasi variabilitas data Exercise 6: Imputasi dengan regresi logistik Exercise 7: Mengambil sampel dari distribusi kondisional

Latihan Saat Ini

Exercise 8: Imputasi berbasis model dengan berbagai tipe variabel Exercise 9: Imputasi berbasis pohon Exercise 10: Imputasi dengan random forests Exercise 11: Kesalahan imputasi per variabel Exercise 12: Pertukaran kecepatan–akurasi

Nilai hasil imputasi bukanlah harga mati. Itu hanyalah taksiran, dan taksiran memiliki ketidakpastian. Di bab terakhir ini, Anda akan mempelajari bagaimana bootstrapping dan chained equations menggunakan paket mice dapat digunakan untuk memasukkan ketidakpastian imputasi ke dalam model dan analisis Anda agar lebih andal dan tangguh.

Exercise 1: Imputasi berganda dengan bootstrapping Exercise 2: Membungkus imputasi & pemodelan ke dalam sebuah fungsi Exercise 3: Menjalankan bootstrap Exercise 4: Interval kepercayaan dengan bootstrapping Exercise 5: Multiple imputation dengan persamaan berantai Exercise 6: Alur mice: mice - with - pool Exercise 7: Memilih model bawaan Exercise 8: Menggunakan matriks prediktor Exercise 9: Menggabungkan semuanya Exercise 10: Menganalisis pola data hilang Exercise 11: Mengimputasi dan memeriksa keluaran Exercise 12: Inferensi dengan data imputasi Exercise 13: Catatan penutup