Imputasi dengan random forests

Pendekatan Machine Learning untuk imputasi bisa lebih akurat dan lebih mudah diterapkan dibandingkan model statistik tradisional. Pertama, Anda tidak perlu menentukan hubungan antarkomponen variabel terlebih dahulu. Selain itu, model Machine Learning seperti random forests mampu menemukan hubungan yang sangat kompleks dan nonlinier, lalu memanfaatkannya untuk memprediksi nilai yang hilang.

Pada latihan ini, Anda akan berkenalan dengan paket missForest, yang membangun random forest terpisah untuk memprediksi nilai yang hilang pada setiap variabel, satu per satu. Anda akan memanggil fungsi imputasi pada data film biografi, biopics, yang sudah Anda gunakan sebelumnya dalam kursus ini, lalu mengekstrak data yang telah terisi serta estimasi galat imputasinya.

Mari “menanam” beberapa random forest!

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Instruksi latihan

Muat paket missForest.
Gunakan missForest() untuk mengimputasi nilai yang hilang pada data biopics; simpan hasilnya ke imp_res.
Ekstrak himpunan data hasil imputasi dari imp_res, simpan sebagai imp_data, dan periksa apakah jumlah nilai hilangnya benar-benar nol.
Ekstrak estimasi galat imputasi dari imp_res, simpan sebagai imp_err, dan cetak ke konsol.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mengetahui mengapa data hilang dapat menjadi risiko saat menganalisis himpunan data. Anda akan diperkenalkan pada tiga mekanisme data hilang dan mempelajari cara mengenalinya menggunakan uji statistik dan alat visualisasi.

Exercise 1: Data hilang: apa saja yang bisa salah Exercise 2: Regresi linear dengan data tidak lengkap Exercise 3: Menganalisis keluaran regresi Exercise 4: Membandingkan model Exercise 5: Mekanisme data hilang Exercise 6: Mengenali mekanisme data hilang Exercise 7: uji t untuk MAR: persiapan data Exercise 8: uji t untuk MAR: interpretasi Exercise 9: Memvisualisasikan pola data hilang Exercise 10: Plot agregasi Exercise 11: Spine plot Exercise 12: Plot mosaik

Kenali taksonomi metode imputasi dan pelajari tiga teknik berbasis donor: imputasi rata-rata, hot-deck, dan k-Nearest-Neighbors. Anda akan melihat cara kerja metode-metode ini di balik layar, sebelum mempelajari cara menerapkannya pada himpunan data cuaca tropis dunia nyata. Sepanjang proses, Anda juga akan mempelajari kiat berguna yang dapat Anda gunakan untuk membuatnya bekerja lebih baik bagi permasalahan Anda.

Exercise 1: Imputasi mean Exercise 2: Mencium bahaya imputasi rata-rata Exercise 3: Imputasi rata-rata untuk temperatur Exercise 4: Menilai kualitas imputasi dengan margin plot Exercise 5: Imputasi hot-deck Exercise 6: Hot-deck standar Exercise 7: Trik & kiat hot-deck I: imputasi di dalam domain Exercise 8: Trik & kiat hot-deck II: mengurutkan berdasarkan variabel berkorelasi Exercise 9: Imputasi k-Nearest-Neighbors Exercise 10: Memilih jumlah tetangga Exercise 11: Trik & kiat kNN I: pembobotan donor Exercise 12: kNN: kiat & trik II — mengurutkan variabel

Saatnya mempelajari cara menggunakan model statistik dan Machine Learning, seperti regresi linear, regresi logistik, dan random forest, untuk melakukan imputasi data hilang. Di bab ini, Anda akan menelaah bagaimana model membuat prediksinya dan menggunakan pengetahuan tersebut untuk mengambil nilai hasil imputasi dari sebaran bersyarat. Hal ini penting karena memastikan hasil imputasi Anda lebih beragam dan masuk akal, sehingga lebih menyerupai data sebenarnya.

Exercise 1: Pendekatan imputasi berbasis model Exercise 2: Imputasi regresi linear Exercise 3: Menginisialisasi nilai yang hilang & iterasi atas variabel Exercise 4: Mendeteksi konvergensi Exercise 5: Mereplikasi variabilitas data Exercise 6: Imputasi dengan regresi logistik Exercise 7: Mengambil sampel dari distribusi kondisional Exercise 8: Imputasi berbasis model dengan berbagai tipe variabel Exercise 9: Imputasi berbasis pohon Exercise 10: Imputasi dengan random forests

Latihan Saat Ini

Exercise 11: Kesalahan imputasi per variabel Exercise 12: Pertukaran kecepatan–akurasi

Nilai hasil imputasi bukanlah harga mati. Itu hanyalah taksiran, dan taksiran memiliki ketidakpastian. Di bab terakhir ini, Anda akan mempelajari bagaimana bootstrapping dan chained equations menggunakan paket mice dapat digunakan untuk memasukkan ketidakpastian imputasi ke dalam model dan analisis Anda agar lebih andal dan tangguh.

Exercise 1: Imputasi berganda dengan bootstrapping Exercise 2: Membungkus imputasi & pemodelan ke dalam sebuah fungsi Exercise 3: Menjalankan bootstrap Exercise 4: Interval kepercayaan dengan bootstrapping Exercise 5: Multiple imputation dengan persamaan berantai Exercise 6: Alur mice: mice - with - pool Exercise 7: Memilih model bawaan Exercise 8: Menggunakan matriks prediktor Exercise 9: Menggabungkan semuanya Exercise 10: Menganalisis pola data hilang Exercise 11: Mengimputasi dan memeriksa keluaran Exercise 12: Inferensi dengan data imputasi Exercise 13: Catatan penutup