1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 가설 검정

Connected

연습 문제

두 집단 비율 검정

화물 운임이 지연 배송 여부에 영향을 주는지 궁금할 수 있어요. late_shipments 데이터셋에서 지연 여부는 late 열에 저장되어 있습니다. 화물 운임은 freight_cost_group 열에 있으며, 범주는 "expensive"와 "reasonable"입니다.

검정할 가설은, 각 집단에서의 지연 배송 비율을 "late"로 표시하면 다음과 같습니다.

\(H_{0}\): \(late_{\text{expensive}} - late_{\text{reasonable}} = 0\)

\(H_{A}\): \(late_{\text{expensive}} - late_{\text{reasonable}} > 0\)

p_hats에는 각 freight_cost_group에 대한 모집단 비율의 추정치(표본 비율)가 들어 있습니다:

freight_cost_group  late
expensive           Yes     0.082569
reasonable          Yes     0.035165
Name: late, dtype: float64

ns에는 각 집단의 표본 크기가 들어 있습니다:

freight_cost_group
expensive     545
reasonable    455
Name: late, dtype: int64

pandas와 numpy는 일반적인 별칭으로 임포트되어 있고, scipy.stats에서 norm을 사용할 수 있습니다.

지침 1/4

undefined XP
    1
    2
    3
    4
  • p_hats와 ns에서 합동 표본 비율 $\hat{p}$을 계산하세요.

$$ \hat{p} = \frac{n_{\text{expensive}} \times \hat{p}_{\text{expensive}} + n_{\text{reasonable}} \times \hat{p}_{\text{reasonable}}}{n_{\text{expensive}} + n_{\text{reasonable}}} $$