1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 범주형 데이터 추론

Connected

연습 문제

신뢰구간 구성하기

재표본을 이용할 때 p-hat이 어떻게 달라지는지 한 가지 예를 봤지만, 변동성을 잘 추정하려면 이런 과정을 아주 많이 반복해야 해요. 여기서는 표준 오차(SE)를 추정하기 위해 전체 부트스트랩 분포를 계산하고, 그 값을 사용해 신뢰구간을 만들 거예요. 이를 위해 infer 패키지의 또 다른 동사인 calculate()를 사용해 여러 데이터셋에서 많은 통계를 효율적으로 계산합니다.

잠시 calculate의 출력을 살펴보세요. 이 함수는 데이터 프레임을 두 개의 열로 줄입니다. 하나는 통계량을 담은 "stat" 열이고, 다른 하나는 해당 통계량이 어떤 반복에서 나왔는지를 나타내는 "replicate" 열이에요.

부트스트랩 분포를 그려 보면 종 모양(정규형)에 가깝다는 것을 알 수 있어요. 바로 이 모양 덕분에 SE를 두 번 더하고 빼서 95% 구간을 구할 수 있습니다.

지침 1/4

undefined XP
    1
    2
    3
    4
  • 다음 단계로 boot_dist라는 부트스트랩 분포를 생성하세요:
  • 성공을 "High" 신뢰도로 간주하는 consci 변수를 대상으로 specify 하세요.
  • 부트스트랩 복제본을 500개 generate 하세요.
  • stat을 "prop"으로 설정해 비율 통계를 calculate 하세요.