1. Learn
  2. /
  3. Kurser
  4. /
  5. Hypotestestning i Python

Connected

övning

Test av två proportioner

Du kanske undrar om fraktkostnaden påverkar om en leverans blev försenad eller inte. I datamängden late_shipments lagras information om försening i kolumnen late. Fraktkostnader lagras i kolumnen freight_cost_group, med kategorierna "expensive" och "reasonable".

Hypoteserna som ska testas, där "late" motsvarar andelen försenade leveranser för respektive grupp, är

\(H_{0}\): \(late_{\text{expensive}} - late_{\text{reasonable}} = 0\)

\(H_{A}\): \(late_{\text{expensive}} - late_{\text{reasonable}} > 0\)

p_hats innehåller skattningar av populationsproportionerna (sampelproportioner) för varje freight_cost_group:

freight_cost_group  late
expensive           Yes     0.082569
reasonable          Yes     0.035165
Name: late, dtype: float64

ns innehåller urvalsstorlekarna för dessa grupper:

freight_cost_group
expensive     545
reasonable    455
Name: late, dtype: int64

pandas och numpy har importerats med sina vanliga alias, och norm är tillgänglig från scipy.stats.

Instruktioner 1/4

undefined XP
    1
    2
    3
    4
  • Beräkna den sammanslagda sampelproportionen, \(\hat{p}\), från p_hats och ns.

$$ \hat{p} = \frac{n_{\text{expensive}} \times \hat{p}_{\text{expensive}} + n_{\text{reasonable}} \times \hat{p}_{\text{reasonable}}}{n_{\text{expensive}} + n_{\text{reasonable}}} $$