Significativité de la différence de proportions
Se rendre au travail à vélo reste peu courant, mais Washington, DC, affiche une part correcte. Elle a augmenté de plus d’un point de pourcentage ces dernières années, mais s’agit‑il d’une hausse statistiquement significative ? Dans cet exercice, vous allez calculer l’erreur standard d’une proportion, puis une statistique Z à deux échantillons pour ces proportions.
La formule de l’erreur standard (SE) d’une proportion est :
$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$
La formule de la statistique Z à deux échantillons est :
$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$
Le DataFrame dc est chargé. Il comporte des colonnes (affichées dans la console) avec des estimations (se terminant par "_est") et des marges d’erreur (se terminant par "_moe") pour le nombre total d’actifs et les navetteurs à vélo.
La fonction sqrt a été importée depuis le module numpy.
Cet exercice fait partie du cours
Analyzing US Census Data in Python
Instructions
- Calculez
bike_shareen divisant le nombre de cyclistes par le nombre total d’actifs - Calculez l’erreur standard (SE) de l’estimation des cyclistes et du total des actifs en divisant la MOE par
Z_CRIT - Calculez l’erreur standard des proportions :
se_bikeest la SE de la sous‑population \(SE_n\),bike_shareest la proportion \(P\), etse_totalest la SE de la population \(SE_N\) - Calculez \(Z\) : \(x_1\) et \(x_2\) sont les
bike_shareen 2017 et 2011 ; \(SE_{x_1}\) et \(SE_{x_2}\) sontse_pen 2017 et 2011
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set the critical Z score for 90% confidence
Z_CRIT = 1.645
# Calculate share of bike commuting
dc["bike_share"] = ____
# Calculate standard errors of the estimate from MOEs
dc["se_bike"] = ____
dc["se_total"] = ____
dc["se_p"] = sqrt(____**2 - ____**2 * ____**2)**0.5 / dc["total_est"]
# Calculate the two sample statistic between 2011 and 2017
Z = (dc[dc["year"] == 2017]["bike_share"] - ____) / \
sqrt(____**2 + ____**2)
print(Z_CRIT < Z)