1. 学ぶ
  2. /
  3. プロジェクト
  4. /
  5. Python으로 미국 인구조사 데이터 분석하기

Connected

演習

비율 차이의 유의성

자전거로 통근하는 사람은 아직 흔치 않지만, 워싱턴 D.C.에서는 꽤 비중이 있어요. 최근 몇 년 사이 1%포인트 이상 증가했는데, 이 증가가 통계적으로 유의미할까요? 이 연습 문제에서는 비율의 표준 오차를 계산한 다음, 두 표본 비율에 대한 Z 통계량을 구해 보겠습니다.

비율의 표준 오차(SE) 공식은 다음과 같습니다.

$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$

두 표본 Z 통계량 공식은 다음과 같습니다.

$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$

DataFrame dc가 로드되어 있습니다. 콘솔에 보이는 열에는 전체 근로자와 자전거 통근자에 대한 추정값("_est"로 끝남)과 오차 한계("_moe"로 끝남)가 포함되어 있어요.

numpy 모듈에서 sqrt 함수가 임포트되어 있습니다.

指示

100 XP
  • 자전거 이용자 수를 전체 근로자 수로 나눠 bike_share를 계산하세요.
  • 자전거 이용자와 전체 근로자 추정값의 SE를 각각 MOE를 Z_CRIT으로 나눠 계산하세요.
  • 비율의 SE를 계산하세요: se_bike는 부분집단의 표준 오차 \(SE_n\), bike_share는 비율 \(P\), se_total은 전체 집단의 표준 오차 $SE_N$입니다.
  • $Z$를 계산하세요: $x_1$과 $x_2$는 각각 2017년과 2011년의 bike_share, $SE_{x_1}$과 $SE_{x_2}$는 각각 2017년과 2011년의 se_p입니다.