uji t untuk MAR: persiapan data
Kerja bagus dalam mengklasifikasikan mekanisme data hilang pada latihan sebelumnya! Dari ketiganya, MAR bisa dibilang yang paling penting untuk dideteksi, karena banyak metode imputasi mengasumsikan data bersifat MAR. Oleh karena itu, latihan ini akan berfokus pada pengujian MAR.
Anda akan bekerja dengan himpunan data biopics yang sudah familier. Tujuannya adalah menguji apakah jumlah nilai yang hilang pada earnings berbeda menurut gender subjek. Pada latihan ini, Anda hanya akan menyiapkan data untuk uji t. Pertama, Anda akan membuat variabel dummy yang menandai keberadaan data hilang pada earnings. Lalu, Anda akan memecahnya per gender dengan terlebih dahulu menyaring data untuk mempertahankan salah satu gender, kemudian menarik (pull) variabel dummy tersebut. Untuk penyaringan, akan membantu jika Anda mencetak head() dari biopics di konsol dan memeriksa variabel gender.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Tambahkan variabel baru ke
biopicsbernamamissing_earningsyang bernilaiTRUEjikaearningshilang danFALSEjika tidak. - Buat sebuah vektor nilai
missing_earningsuntuk laki-laki dan tetapkan kemissing_earnings_males. - Buat sebuah vektor nilai
missing_earningsuntuk perempuan dan tetapkan kemissing_earnings_females.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a dummy variable for missing earnings
biopics <- biopics %>%
___(missing_earnings = ___(___))
# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>%
___(___) %>%
___(___)
# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>%
___(___) %>%
___(___)