Significantie van het verschil tussen aandelen

Fietsen naar het werk komt nog niet vaak voor, maar Washington, DC, heeft een aardig aandeel. Het is in de afgelopen jaren met meer dan 1 procentpunt gestegen, maar is dit een statistisch significante toename? In deze oefening bereken je de standaardfout van een aandeel en daarna een tweesteekproefs Z-statistic van de aandelen.

De formule voor de standaardfout (SE) van een aandeel is:

$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$

De formule voor de tweesteekproefs Z-statistic is:

$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$

De DataFrame dc is geladen. Deze heeft kolommen (te zien in de console) met schattingen (eindigend op "_est") en marges van fout (eindigend op "_moe") voor het totaal aantal werkenden en het aantal fietsforenzen.

De functie sqrt is geïmporteerd uit de module numpy.

Deze oefening maakt deel uit van de cursus

US Census-gegevens analyseren in Python

Bekijk cursus

Oefeninstructies

Bereken bike_share door het aantal fietsers te delen door het totale aantal werkenden
Bereken de SE van de schatting van fietsers en totaal aantal werkenden door de MOE te delen door Z_CRIT
Bereken de SE van de aandelen: se_bike is de SE van de subpopulatie $SE_n$, bike_share is het aandeel $P$, en se_total is de SE van de populatie $SE_N$
Bereken $Z$: $x_1$ en $x_2$ zijn de bike_share in 2017 en 2011; $SE_{x_1}$ en $SE_{x_2}$ zijn se_p in 2017 en 2011

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set the critical Z score for 90% confidence
Z_CRIT = 1.645

# Calculate share of bike commuting
dc["bike_share"] = ____

# Calculate standard errors of the estimate from MOEs
dc["se_bike"] = ____
dc["se_total"] = ____
dc["se_p"] = sqrt(____**2 - ____**2 * ____**2)**0.5 / dc["total_est"]

# Calculate the two sample statistic between 2011 and 2017
Z = (dc[dc["year"] == 2017]["bike_share"] - ____) / \
    sqrt(____**2 + ____**2)
print(Z_CRIT < Z)

Code bewerken en uitvoeren