uji t untuk MAR: persiapan data

Kerja bagus dalam mengklasifikasikan mekanisme data hilang pada latihan sebelumnya! Dari ketiganya, MAR bisa dibilang yang paling penting untuk dideteksi, karena banyak metode imputasi mengasumsikan data bersifat MAR. Oleh karena itu, latihan ini akan berfokus pada pengujian MAR.

Anda akan bekerja dengan himpunan data biopics yang sudah familier. Tujuannya adalah menguji apakah jumlah nilai yang hilang pada earnings berbeda menurut gender subjek. Pada latihan ini, Anda hanya akan menyiapkan data untuk uji t. Pertama, Anda akan membuat variabel dummy yang menandai keberadaan data hilang pada earnings. Lalu, Anda akan memecahnya per gender dengan terlebih dahulu menyaring data untuk mempertahankan salah satu gender, kemudian menarik (pull) variabel dummy tersebut. Untuk penyaringan, akan membantu jika Anda mencetak head() dari biopics di konsol dan memeriksa variabel gender.

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Instruksi latihan

Tambahkan variabel baru ke biopics bernama missing_earnings yang bernilai TRUE jika earnings hilang dan FALSE jika tidak.
Buat sebuah vektor nilai missing_earnings untuk laki-laki dan tetapkan ke missing_earnings_males.
Buat sebuah vektor nilai missing_earnings untuk perempuan dan tetapkan ke missing_earnings_females.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a dummy variable for missing earnings
biopics <- biopics %>% 
  ___(missing_earnings = ___(___))

# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>% 
  ___(___) %>% 
  ___(___)

# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>% 
  ___(___) %>% 
  ___(___)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mengetahui mengapa data hilang dapat menjadi risiko saat menganalisis himpunan data. Anda akan diperkenalkan pada tiga mekanisme data hilang dan mempelajari cara mengenalinya menggunakan uji statistik dan alat visualisasi.

Exercise 1: Data hilang: apa saja yang bisa salah Exercise 2: Regresi linear dengan data tidak lengkap Exercise 3: Menganalisis keluaran regresi Exercise 4: Membandingkan model Exercise 5: Mekanisme data hilang Exercise 6: Mengenali mekanisme data hilang Exercise 7: uji t untuk MAR: persiapan data

Latihan Saat Ini

Exercise 8: uji t untuk MAR: interpretasi Exercise 9: Memvisualisasikan pola data hilang Exercise 10: Plot agregasi Exercise 11: Spine plot Exercise 12: Plot mosaik

Kenali taksonomi metode imputasi dan pelajari tiga teknik berbasis donor: imputasi rata-rata, hot-deck, dan k-Nearest-Neighbors. Anda akan melihat cara kerja metode-metode ini di balik layar, sebelum mempelajari cara menerapkannya pada himpunan data cuaca tropis dunia nyata. Sepanjang proses, Anda juga akan mempelajari kiat berguna yang dapat Anda gunakan untuk membuatnya bekerja lebih baik bagi permasalahan Anda.

Exercise 1: Imputasi mean Exercise 2: Mencium bahaya imputasi rata-rata Exercise 3: Imputasi rata-rata untuk temperatur Exercise 4: Menilai kualitas imputasi dengan margin plot Exercise 5: Imputasi hot-deck Exercise 6: Hot-deck standar Exercise 7: Trik & kiat hot-deck I: imputasi di dalam domain Exercise 8: Trik & kiat hot-deck II: mengurutkan berdasarkan variabel berkorelasi Exercise 9: Imputasi k-Nearest-Neighbors Exercise 10: Memilih jumlah tetangga Exercise 11: Trik & kiat kNN I: pembobotan donor Exercise 12: kNN: kiat & trik II — mengurutkan variabel

Saatnya mempelajari cara menggunakan model statistik dan Machine Learning, seperti regresi linear, regresi logistik, dan random forest, untuk melakukan imputasi data hilang. Di bab ini, Anda akan menelaah bagaimana model membuat prediksinya dan menggunakan pengetahuan tersebut untuk mengambil nilai hasil imputasi dari sebaran bersyarat. Hal ini penting karena memastikan hasil imputasi Anda lebih beragam dan masuk akal, sehingga lebih menyerupai data sebenarnya.

Exercise 1: Pendekatan imputasi berbasis model Exercise 2: Imputasi regresi linear Exercise 3: Menginisialisasi nilai yang hilang & iterasi atas variabel Exercise 4: Mendeteksi konvergensi Exercise 5: Mereplikasi variabilitas data Exercise 6: Imputasi dengan regresi logistik Exercise 7: Mengambil sampel dari distribusi kondisional Exercise 8: Imputasi berbasis model dengan berbagai tipe variabel Exercise 9: Imputasi berbasis pohon Exercise 10: Imputasi dengan random forests Exercise 11: Kesalahan imputasi per variabel Exercise 12: Pertukaran kecepatan–akurasi

Nilai hasil imputasi bukanlah harga mati. Itu hanyalah taksiran, dan taksiran memiliki ketidakpastian. Di bab terakhir ini, Anda akan mempelajari bagaimana bootstrapping dan chained equations menggunakan paket mice dapat digunakan untuk memasukkan ketidakpastian imputasi ke dalam model dan analisis Anda agar lebih andal dan tangguh.

Exercise 1: Imputasi berganda dengan bootstrapping Exercise 2: Membungkus imputasi & pemodelan ke dalam sebuah fungsi Exercise 3: Menjalankan bootstrap Exercise 4: Interval kepercayaan dengan bootstrapping Exercise 5: Multiple imputation dengan persamaan berantai Exercise 6: Alur mice: mice - with - pool Exercise 7: Memilih model bawaan Exercise 8: Menggunakan matriks prediktor Exercise 9: Menggabungkan semuanya Exercise 10: Menganalisis pola data hilang Exercise 11: Mengimputasi dan memeriksa keluaran Exercise 12: Inferensi dengan data imputasi Exercise 13: Catatan penutup