1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế thí nghiệm với R

Connected

Bài tập

Lấy mẫu lại dữ liệu NHANES

Dữ liệu NHANES được thu thập trên các đơn vị mẫu (người) được chọn đặc biệt để đại diện cho dân số Hoa Kỳ. Tuy nhiên, hãy lấy mẫu lại bộ dữ liệu nhanes_final theo các cách khác nhau để bạn cảm nhận được các phương pháp lấy mẫu khác nhau.

Ta có thể thực hiện lấy mẫu ngẫu nhiên đơn giản bằng slice_sample() từ dplyr. Hàm này nhận đầu vào là một bộ dữ liệu và một số nguyên là số hàng cần lấy mẫu.

Lấy mẫu phân tầng có thể thực hiện bằng cách kết hợp group_by() và slice_sample(). Hàm sẽ lấy mẫu n từ mỗi nhóm được chỉ định trong group_by().

Hàm cluster() của gói sampling tạo các mẫu theo cụm. Hàm nhận tên bộ dữ liệu, biến trong tập sẽ được dùng làm biến cụm, truyền dưới dạng vector với tên là chuỗi (ví dụ c("variable")), số cụm cần chọn và phương pháp.

Hướng dẫn

100 XP
  • Dùng slice_sample() để chọn 2500 quan sát từ nhanes_final và lưu thành nhanes_srs.
  • Tạo nhanes_stratified bằng cách dùng group_by() và slice_sample(). Phân tầng theo riagendr và chọn 2000 cho mỗi giới tính. Xác nhận rằng thao tác đã đúng bằng cách dùng count() để kiểm tra biến giới tính của nhanes_stratified.
  • Nạp gói sampling. Dùng cluster() để chia nhanes_final theo "indhhin2" thành 6 cụm với phương pháp "srswor". Gán kết quả vào nhanes_cluster.