1. Learn
  2. /
  3. 课程
  4. /
  5. Python 假设检验

Connected

道练习

两样本比例检验

您可能想知道,支付的运费是否会影响货件是否延迟。回忆一下,在 late_shipments 数据集里,货件是否延迟存储在 late 列中。运费分组存储在 freight_cost_group 列中,类别为 "expensive" 和 "reasonable"。

要检验的假设,其中 "late" 表示该组的延迟发货比例,为:

\(H_{0}\): \(late_{\text{expensive}} - late_{\text{reasonable}} = 0\)

\(H_{A}\): \(late_{\text{expensive}} - late_{\text{reasonable}} > 0\)

p_hats 包含每个 freight_cost_group 的总体比例估计值(样本比例):

freight_cost_group  late
expensive           Yes     0.082569
reasonable          Yes     0.035165
Name: late, dtype: float64

ns 包含这些分组的样本量:

freight_cost_group
expensive     545
reasonable    455
Name: late, dtype: int64

已按常用别名导入了 pandas 和 numpy,并且可从 scipy.stats 调用 norm。

说明 1 / 共 4 个

undefined XP
    1
    2
    3
    4
  • 使用 p_hats 和 ns 计算合并样本比例 $\hat{p}$。

$$ \hat{p} = \frac{n_{\text{expensive}} \times \hat{p}_{\text{expensive}} + n_{\text{reasonable}} \times \hat{p}_{\text{reasonable}}}{n_{\text{expensive}} + n_{\text{reasonable}}} $$