데이터가 적을 때의 SE

추정에 사용할 데이터가 적을수록 그 추정에는 더 많은 불확실성이 따릅니다. 이는 표준 오차(standard error)에 반영돼요. 이번 연습 문제에서는 서로 다른 크기의 데이터셋을 살펴보며 이 관계를 체감해 보겠습니다.

gss2016에서 두 개의 더 작은 데이터셋을 준비해 두었습니다. 50개의 관측치가 있는 gss2016_small과 10개의 관측치만 있는 gss2016_smaller입니다.

1
- gss2016_small을 사용해 익숙한 단계로 부트스트랩 분포 boot_dist_small을 만드세요:
- 성공을 "High" 신뢰로 표시하는 consci 변수를 대상으로 specify하세요.
- generate로 부트스트랩 복제본 500개를 생성하세요.
- 각 복제본에 대해 proportion을 calculate하세요.

2
boot_dist_small의 표준편차로 SE를 요약하고, 이를 꺼내 SE_small_n에 저장하세요.
3
- 동일한 과정을 gss2016_smaller에 대해 반복하여 부트스트랩 분포를 생성하고 boot_dist_smaller에 저장하세요. 이전 코드 블록을 복사해 붙여넣고 데이터셋 이름만 바꾸면 시간을 절약할 수 있어요.
4
- boot_dist_smaller의 SE를 추출하는 과정도 반복하고 결과를 SE_smaller_n에 저장하세요. 여기서도 복사-붙여넣기가 유용합니다.
- 두 SE와 각 표본 크기를 비교하기 위해 코드를 실행하세요. 표본 크기는 표준 오차에 어떤 영향을 미칠까요?