Pembersihan Data NHANES
Selama pembersihan data, kami menemukan bahwa tidak ada peserta di bawah usia 16 tahun yang menerima perlakuan. Ingat bahwa kita menganggap variabel yang menunjukkan apakah seorang dokter pernah menyarankan mereka untuk mengurangi lemak atau kalori dalam pola makan sebagai konseling nutrisi terarah, yaitu perlakuan kita. Mari kita hanya mempertahankan pasien yang berusia lebih dari 16 tahun dalam himpunan data.
Anda juga mungkin memperhatikan bahwa setelan bawaan di ggplot2 menghapus pengamatan apa pun dengan variabel dependen yang hilang, dalam hal ini berat badan. Salah satu opsi untuk menangani berat badan yang hilang, yaitu imputasi, dapat diterapkan menggunakan paket simputation. Imputasi adalah teknik untuk menangani nilai hilang dengan menggantinya menggunakan statistik ringkasan, seperti mean atau median, atau menggunakan model untuk memprediksi nilai pengganti.
Kita akan menggunakan impute_median(), yang menerima sebuah himpunan data dan variabel yang akan diimputasi atau formula pengelompokan untuk imputasi sebagai argumen. Sebagai contoh, impute_median(ToothGrowth, len ~ dose) akan mengisi nilai hilang apa pun pada variabel len dengan nilai median len menurut dose. Jadi, jika seekor marmut yang menerima dosis 2.0 memiliki nilai hilang untuk variabel len, nilai tersebut akan diisi dengan median len untuk marmut dengan dose 2.0.
Latihan ini adalah bagian dari kursus
Perancangan Eksperimen di R
Petunjuk latihan
- Buat
nhanes_filterdengan menggunakanfilter()untuk mempertahankan siapa pun yang berusia lebih dari 16 tahun dalam himpunan data, tidak termasuk yang berusia tepat 16. Usia disimpan dalam variabelridageyr. - Muat
simputation. Gunakanimpute_median()untuk mengisi pengamatanbmxwtyang hilang dalamnhanes_filter, dikelompokkan menurutriagendr. - Rekode variabel
nhanes_final$mcq365ddengan mengubah pengamatan apa pun bernilai 9 menjadi 2. Verifikasi bahwa rekode berhasil dengancount().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Filter to keep only those 16+
nhanes_filter <- ___ %>% filter(___)
# Load simputation & impute bmxwt by riagendr
___
nhanes_final <- impute_median(___, ___)
# Recode mcq365d with recode() & examine with count()
nhanes_final$mcq365d <- recode(nhanes_final$mcq365d,
`1` = 1,
`2` = 2,
`9` = ___)
___ %>% ___