MulaiMulai sekarang secara gratis

Membungkus imputasi & pemodelan ke dalam sebuah fungsi

Setiap kali Anda melakukan analisis atau pemodelan pada data yang telah diimputasi, Anda harus memperhitungkan ketidakpastian dari imputasi. Menjalankan model pada himpunan data yang hanya diimputasi sekali mengabaikan fakta bahwa imputasi memperkirakan nilai hilang dengan ketidakpastian. Galat baku dari model seperti ini cenderung terlalu kecil. Solusinya adalah imputasi berganda, dan salah satu cara menerapkannya adalah dengan bootstrapping.

Dalam latihan-latihan berikut, Anda akan bekerja dengan data biopics yang sudah familiar. Tujuannya adalah menggunakan imputasi berganda dengan bootstrapping dan regresi linear untuk melihat apakah, berdasarkan data yang tersedia, film biografi yang menampilkan perempuan menghasilkan pendapatan lebih rendah dibandingkan yang menampilkan laki-laki.

Mari mulai dengan menulis sebuah fungsi yang membuat sampel bootstrap, melakukan imputasi, dan menyesuaikan model regresi linear.

Latihan ini adalah bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Lihat Kursus

Petunjuk latihan

  • Iris data untuk mengambil ulang baris-baris yang ditunjukkan oleh indices dan simpan hasilnya ke data_boot.
  • Imputasi sampel bootstrap data_boot dengan imputasi kNN menggunakan 5 tetangga dan simpan hasilnya ke data_imp.
  • Sesuaikan model regresi linear pada data_imp yang menjelaskan earnings dengan sub_sex, sub_type, dan year.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

calc_gender_coef <- function(data, indices) {
  # Get bootstrap sample
  data_boot <- data[___, ]
  # Impute with kNN imputation
  data_imp <- ___
  # Fit linear regression
  linear_model <- ___
  # Extract and return gender coefficient
  gender_coefficient <- coef(linear_model)[2]
  return(gender_coefficient)
}
Edit dan Jalankan Kode