Pertukaran kecepatan–akurasi

Dalam video terakhir, Anda melihat ada dua kenop yang dapat Anda atur untuk memengaruhi kinerja random forests:

Jumlah pohon keputusan dalam setiap hutan.
Jumlah variabel yang digunakan untuk pemisahan di dalam pohon keputusan.

Meningkatkan masing-masing dapat memperbaiki akurasi model imputasi, tetapi juga akan membutuhkan waktu komputasi yang lebih lama. Pada latihan ini, Anda akan mengeksplorasi gagasan tersebut dengan menjalankan missForest() pada data biopics dua kali dengan pengaturan yang berbeda. Saat mengikuti instruksi, perhatikan galat yang akan Anda cetak dan waktu yang dibutuhkan kode untuk berjalan.

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Set number of trees to 5 and number of variables used for splitting to 2
imp_res <- missForest(biopics, ___ = ___, ___ = ___)

# Print the resulting imputation errors
print(___)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mengetahui mengapa data hilang dapat menjadi risiko saat menganalisis himpunan data. Anda akan diperkenalkan pada tiga mekanisme data hilang dan mempelajari cara mengenalinya menggunakan uji statistik dan alat visualisasi.

Exercise 1: Data hilang: apa saja yang bisa salah Exercise 2: Regresi linear dengan data tidak lengkap Exercise 3: Menganalisis keluaran regresi Exercise 4: Membandingkan model Exercise 5: Mekanisme data hilang Exercise 6: Mengenali mekanisme data hilang Exercise 7: uji t untuk MAR: persiapan data Exercise 8: uji t untuk MAR: interpretasi Exercise 9: Memvisualisasikan pola data hilang Exercise 10: Plot agregasi Exercise 11: Spine plot Exercise 12: Plot mosaik

Kenali taksonomi metode imputasi dan pelajari tiga teknik berbasis donor: imputasi rata-rata, hot-deck, dan k-Nearest-Neighbors. Anda akan melihat cara kerja metode-metode ini di balik layar, sebelum mempelajari cara menerapkannya pada himpunan data cuaca tropis dunia nyata. Sepanjang proses, Anda juga akan mempelajari kiat berguna yang dapat Anda gunakan untuk membuatnya bekerja lebih baik bagi permasalahan Anda.

Exercise 1: Imputasi mean Exercise 2: Mencium bahaya imputasi rata-rata Exercise 3: Imputasi rata-rata untuk temperatur Exercise 4: Menilai kualitas imputasi dengan margin plot Exercise 5: Imputasi hot-deck Exercise 6: Hot-deck standar Exercise 7: Trik & kiat hot-deck I: imputasi di dalam domain Exercise 8: Trik & kiat hot-deck II: mengurutkan berdasarkan variabel berkorelasi Exercise 9: Imputasi k-Nearest-Neighbors Exercise 10: Memilih jumlah tetangga Exercise 11: Trik & kiat kNN I: pembobotan donor Exercise 12: kNN: kiat & trik II — mengurutkan variabel

Saatnya mempelajari cara menggunakan model statistik dan Machine Learning, seperti regresi linear, regresi logistik, dan random forest, untuk melakukan imputasi data hilang. Di bab ini, Anda akan menelaah bagaimana model membuat prediksinya dan menggunakan pengetahuan tersebut untuk mengambil nilai hasil imputasi dari sebaran bersyarat. Hal ini penting karena memastikan hasil imputasi Anda lebih beragam dan masuk akal, sehingga lebih menyerupai data sebenarnya.

Exercise 1: Pendekatan imputasi berbasis model Exercise 2: Imputasi regresi linear Exercise 3: Menginisialisasi nilai yang hilang & iterasi atas variabel Exercise 4: Mendeteksi konvergensi Exercise 5: Mereplikasi variabilitas data Exercise 6: Imputasi dengan regresi logistik Exercise 7: Mengambil sampel dari distribusi kondisional Exercise 8: Imputasi berbasis model dengan berbagai tipe variabel Exercise 9: Imputasi berbasis pohon Exercise 10: Imputasi dengan random forests Exercise 11: Kesalahan imputasi per variabel Exercise 12: Pertukaran kecepatan–akurasi

Latihan Saat Ini

Nilai hasil imputasi bukanlah harga mati. Itu hanyalah taksiran, dan taksiran memiliki ketidakpastian. Di bab terakhir ini, Anda akan mempelajari bagaimana bootstrapping dan chained equations menggunakan paket mice dapat digunakan untuk memasukkan ketidakpastian imputasi ke dalam model dan analisis Anda agar lebih andal dan tangguh.

Exercise 1: Imputasi berganda dengan bootstrapping Exercise 2: Membungkus imputasi & pemodelan ke dalam sebuah fungsi Exercise 3: Menjalankan bootstrap Exercise 4: Interval kepercayaan dengan bootstrapping Exercise 5: Multiple imputation dengan persamaan berantai Exercise 6: Alur mice: mice - with - pool Exercise 7: Memilih model bawaan Exercise 8: Menggunakan matriks prediktor Exercise 9: Menggabungkan semuanya Exercise 10: Menganalisis pola data hilang Exercise 11: Mengimputasi dan memeriksa keluaran Exercise 12: Inferensi dengan data imputasi Exercise 13: Catatan penutup