1. Apprendre
  2. /
  3. Cours
  4. /
  5. Vérification d'hypothèses en Python

Connected

Exercice

Test de deux proportions

Vous vous demandez peut-être si le montant payé pour le transport influe sur le fait qu'un envoi soit en retard ou non. Rappelez-vous que, dans l'ensemble de données late_shipments, l'indicateur de retard se trouve dans la colonne late. Les frais de transport sont dans la colonne freight_cost_group, avec les catégories "expensive" et "reasonable".

Les hypothèses à tester, où "late" correspond à la proportion d'envois en retard pour ce groupe, sont

\(H_{0}\): \(late_{\text{expensive}} - late_{\text{reasonable}} = 0\)

\(H_{A}\): \(late_{\text{expensive}} - late_{\text{reasonable}} > 0\)

p_hats contient les estimations des proportions dans la population (proportions d'échantillon) pour chaque freight_cost_group :

freight_cost_group  late
expensive           Yes     0.082569
reasonable          Yes     0.035165
Name: late, dtype: float64

ns contient les tailles d'échantillon pour ces groupes :

freight_cost_group
expensive     545
reasonable    455
Name: late, dtype: int64

pandas et numpy ont été importés sous leurs alias habituels, et norm est disponible depuis scipy.stats.

Instructions 1/4

undefined XP
    1
    2
    3
    4
  • Calculez la proportion regroupée de l'échantillon, \(\hat{p}\), à partir de p_hats et ns.

$$ \hat{p} = \frac{n_{\text{expensive}} \times \hat{p}_{\text{expensive}} + n_{\text{reasonable}} \times \hat{p}_{\text{reasonable}}}{n_{\text{expensive}} + n_{\text{reasonable}}} $$