MulaiMulai sekarang secara gratis

Pembersihan Data NHANES

Selama pembersihan data, kami menemukan bahwa tidak ada peserta di bawah usia 16 tahun yang menerima perlakuan. Ingat bahwa kita menganggap variabel yang menunjukkan apakah seorang dokter pernah menyarankan mereka untuk mengurangi lemak atau kalori dalam pola makan sebagai konseling nutrisi terarah, yaitu perlakuan kita. Mari kita hanya mempertahankan pasien yang berusia lebih dari 16 tahun dalam himpunan data.

Anda juga mungkin memperhatikan bahwa setelan bawaan di ggplot2 menghapus pengamatan apa pun dengan variabel dependen yang hilang, dalam hal ini berat badan. Salah satu opsi untuk menangani berat badan yang hilang, yaitu imputasi, dapat diterapkan menggunakan paket simputation. Imputasi adalah teknik untuk menangani nilai hilang dengan menggantinya menggunakan statistik ringkasan, seperti mean atau median, atau menggunakan model untuk memprediksi nilai pengganti.

Kita akan menggunakan impute_median(), yang menerima sebuah himpunan data dan variabel yang akan diimputasi atau formula pengelompokan untuk imputasi sebagai argumen. Sebagai contoh, impute_median(ToothGrowth, len ~ dose) akan mengisi nilai hilang apa pun pada variabel len dengan nilai median len menurut dose. Jadi, jika seekor marmut yang menerima dosis 2.0 memiliki nilai hilang untuk variabel len, nilai tersebut akan diisi dengan median len untuk marmut dengan dose 2.0.

Latihan ini adalah bagian dari kursus

Perancangan Eksperimen di R

Lihat Kursus

Petunjuk latihan

  • Buat nhanes_filter dengan menggunakan filter() untuk mempertahankan siapa pun yang berusia lebih dari 16 tahun dalam himpunan data, tidak termasuk yang berusia tepat 16. Usia disimpan dalam variabel ridageyr.
  • Muat simputation. Gunakan impute_median() untuk mengisi pengamatan bmxwt yang hilang dalam nhanes_filter, dikelompokkan menurut riagendr.
  • Rekode variabel nhanes_final$mcq365d dengan mengubah pengamatan apa pun bernilai 9 menjadi 2. Verifikasi bahwa rekode berhasil dengan count().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Filter to keep only those 16+
nhanes_filter <- ___ %>% filter(___)

# Load simputation & impute bmxwt by riagendr
___
nhanes_final <- impute_median(___, ___)

# Recode mcq365d with recode() & examine with count()
nhanes_final$mcq365d <- recode(nhanes_final$mcq365d, 
                               `1` = 1,
                               `2` = 2,
                               `9` = ___)
___ %>% ___
Edit dan Jalankan Kode