경험적 법칙

데이터 분석에서 사용하는 많은 통계량(표본평균과 표본비율 모두 포함)은 관심 있는 모수(들)를 더 잘 이해하는 데 도움이 되는 유용한 성질을 갖고 있어요.

그중 하나는 표본비율의 변동성(이를 표준오차, $SE$라고 부릅니다)을 알면, 서로 다른 표본에서 나온 $\hat{p}$ 값 중 약 95%가 실제 모수비율로부터 $2SE$ 이내에 위치한다는 성질입니다.

이 성질이 현재 상황에서도 성립하는지 확인해 보기 위해, 동일한 모집단에서 여러 표본을 추출해 생성한 여론조사 결과로 돌아가 보겠습니다.

all_polls 데이터셋에는 유권자가 후보 X에게 투표할 확률이 0.6인 모집단에서 표본크기 30으로 추출한 표본 1000개의 결과가 들어 있습니다.

또한 수치들의 변동성을 계산하는 R 함수 sd()를 사용하게 됩니다. 통계에서 sd()를 어떤 변수(예: 주택 가격)에 적용하면 표준편차라고 부르고, 어떤 통계량(예: 표본비율들의 집합)에 적용하면 표준오차라고 부릅니다.

각 조사에서 찬성 투표를 계획한 사람들의 비율인 props를 생성하는 코드를 실행하세요. 이것은 이전 연습 문제의 ex1_props를 기반으로 합니다.
표본의 찬성 비율이 실제 모집단의 찬성 비율로부터 표준오차 2배 이내일 때 TRUE가 되는 열 is_in_conf_int를 추가하세요. 즉, prop_yes와 true_prop_yes의 abs()절댓값 차이가 prop_yes의 sd()의 두 배보다 작으면 됩니다.
is_in_conf_int의 mean()을 계산하여 신뢰구간 안에 들어가는 표본 통계량의 비율 prop_in_conf_int를 구하세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제