1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế thí nghiệm với R

Connected

Bài tập

Làm sạch dữ liệu NHANES

Trong quá trình làm sạch dữ liệu, chúng ta phát hiện không ai dưới 16 tuổi được áp dụng điều trị. Nhớ rằng chúng ta đang giả định biến cho biết liệu bác sĩ đã từng khuyên họ giảm chất béo hoặc calo trong chế độ ăn là tư vấn dinh dưỡng có chủ đích, tức là điều trị của chúng ta. Hãy chỉ giữ các bệnh nhân trên 16 tuổi trong bộ dữ liệu.

Bạn cũng có thể nhận thấy rằng thiết lập mặc định của ggplot2 sẽ loại bỏ mọi quan sát có biến phụ thuộc bị thiếu, trong trường hợp này là cân nặng cơ thể. Một cách xử lý các giá trị cân nặng bị thiếu là nội suy (imputation), có thể thực hiện bằng gói simputation. Imputation là kỹ thuật xử lý giá trị khuyết, trong đó bạn thay thế chúng bằng một thống kê tóm tắt, như mean hoặc median, hoặc dùng một mô hình để dự đoán giá trị thay thế.

Chúng ta sẽ dùng impute_median(), hàm nhận một bộ dữ liệu và biến cần nội suy hoặc công thức để nội suy theo nhóm làm đối số. Ví dụ, impute_median(ToothGrowth, len ~ dose) sẽ điền mọi giá trị thiếu của biến len bằng median của len theo dose. Vì vậy, nếu một chuột lang nhận liều 2.0 bị thiếu giá trị cho biến len, nó sẽ được điền bằng median len của những chuột lang có dose bằng 2.0.

Hướng dẫn

100 XP
  • Tạo nhanes_filter bằng cách dùng filter() để giữ những người lớn hơn 16 tuổi trong bộ dữ liệu, không bao gồm người 16 tuổi. Tuổi được lưu trong biến ridageyr.
  • Nạp simputation. Dùng impute_median() để điền các quan sát thiếu của bmxwt trong nhanes_filter, nhóm theo riagendr.
  • Recode biến nhanes_final$mcq365d bằng cách đặt mọi quan sát có giá trị 9 thành 2. Xác minh việc recode hoạt động bằng count().