1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Kiểm định giả thuyết trong Python

Connected

Bài tập

Kiểm định hai tỷ lệ

Bạn có thể tự hỏi liệu chi phí vận chuyển (freight) có ảnh hưởng đến việc lô hàng đến muộn hay không. Nhớ rằng trong dữ liệu late_shipments, việc lô hàng có đến muộn hay không được lưu trong cột late. Chi phí vận chuyển được lưu trong cột freight_cost_group với hai nhóm "expensive" và "reasonable".

Các giả thuyết cần kiểm định, với "late" tương ứng với tỷ lệ lô hàng đến muộn của từng nhóm, là

\(H_{0}\): \(late_{\text{expensive}} - late_{\text{reasonable}} = 0\)

\(H_{A}\): \(late_{\text{expensive}} - late_{\text{reasonable}} > 0\)

p_hats chứa ước lượng tỷ lệ tổng thể (tỷ lệ mẫu) cho mỗi freight_cost_group:

freight_cost_group  late
expensive           Yes     0.082569
reasonable          Yes     0.035165
Name: late, dtype: float64

ns chứa kích thước mẫu cho các nhóm này:

freight_cost_group
expensive     545
reasonable    455
Name: late, dtype: int64

pandas và numpy đã được import với các bí danh quen thuộc, và norm có sẵn từ scipy.stats.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Tính tỷ lệ mẫu gộp, \(\hat{p}\), từ p_hats và ns.

$$ \hat{p} = \frac{n_{\text{expensive}} \times \hat{p}_{\text{expensive}} + n_{\text{reasonable}} \times \hat{p}_{\text{reasonable}}}{n_{\text{expensive}} + n_{\text{reasonable}}} $$