1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Testování hypotéz v Pythonu

Connected

cvičení

Test dvou proporcí

Možná tě napadlo, jestli výše nákladů na přepravu ovlivňuje, zda zásilka dorazí se zpožděním. V datasetu late_shipments je informace o zpoždění zásilky uložena ve sloupci late. Náklady na přepravu jsou ve sloupci freight_cost_group a kategorie jsou "expensive" a "reasonable".

Hypotézy k otestování, kde "late" odpovídá podílu opožděných zásilek v dané skupině, jsou

\(H_{0}\): \(late_{\text{expensive}} - late_{\text{reasonable}} = 0\)

\(H_{A}\): \(late_{\text{expensive}} - late_{\text{reasonable}} > 0\)

p_hats obsahuje odhady populačních proporcí (výběrové proporce) pro každou skupinu freight_cost_group:

freight_cost_group  late
expensive           Yes     0.082569
reasonable          Yes     0.035165
Name: late, dtype: float64

ns obsahuje velikosti výběrů pro tyto skupiny:

freight_cost_group
expensive     545
reasonable    455
Name: late, dtype: int64

pandas a numpy jsou naimportovány pod obvyklými aliasy a norm je dostupná z scipy.stats.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Vypočítej sdruženou výběrovou proporci \(\hat{p}\) z p_hats a ns.

$$ \hat{p} = \frac{n_{\text{expensive}} \times \hat{p}_{\text{expensive}} + n_{\text{reasonable}} \times \hat{p}_{\text{reasonable}}}{n_{\text{expensive}} + n_{\text{reasonable}}} $$