NHANES 데이터 재표본추출

NHANES 데이터는 미국 인구를 대표하도록 특별히 선정된 표본 단위(사람)에서 수집됩니다. 하지만 다양한 표본추출 방법을 익히기 위해 nhanes_final 데이터셋을 여러 방식으로 재표본추출해 보겠습니다.

단순 임의 추출(simple random sample)은 dplyr의 slice_sample()로 수행할 수 있습니다. 이 함수는 데이터셋과 추출할 행 수(정수)를 입력으로 받습니다.

층화 표본추출(stratified sampling)은 group_by()와 slice_sample()을 결합해 수행할 수 있습니다. group_by()로 지정한 각 그룹에서 n개씩 표본을 추출합니다.

sampling 패키지의 cluster()는 군집 표본을 생성합니다. 이 함수는 데이터셋 이름, 군집 변수로 사용할 변수(예: c("variable")처럼 이름을 문자열로 담은 벡터), 선택할 군집 수, 그리고 방법(method)을 인수로 받습니다.

slice_sample()을 사용해 nhanes_final에서 2500개의 관측치를 선택하고 nhanes_srs로 저장하세요.
group_by()와 slice_sample()을 사용해 nhanes_stratified를 만드세요. riagendr로 층화하고 각 성별에서 2000개를 선택하세요. count()로 nhanes_stratified의 성별 변수를 확인해 제대로 수행되었는지 점검하세요.
sampling 패키지를 로드하세요. cluster()를 사용해 nhanes_final을 "indhhin2"로 군집화하고, "srswor" 방법으로 6개 군집을 선택하세요. 결과를 nhanes_cluster에 할당하세요.