신뢰구간 구성하기

재표본을 이용할 때 p-hat이 어떻게 달라지는지 한 가지 예를 봤지만, 변동성을 잘 추정하려면 이런 과정을 아주 많이 반복해야 해요. 여기서는 표준 오차(SE)를 추정하기 위해 전체 부트스트랩 분포를 계산하고, 그 값을 사용해 신뢰구간을 만들 거예요. 이를 위해 infer 패키지의 또 다른 동사인 calculate()를 사용해 여러 데이터셋에서 많은 통계를 효율적으로 계산합니다.

잠시 calculate의 출력을 살펴보세요. 이 함수는 데이터 프레임을 두 개의 열로 줄입니다. 하나는 통계량을 담은 "stat" 열이고, 다른 하나는 해당 통계량이 어떤 반복에서 나왔는지를 나타내는 "replicate" 열이에요.

부트스트랩 분포를 그려 보면 종 모양(정규형)에 가깝다는 것을 알 수 있어요. 바로 이 모양 덕분에 SE를 두 번 더하고 빼서 95% 구간을 구할 수 있습니다.