Significantie van het verschil tussen aandelen
Fietsen naar het werk komt nog niet vaak voor, maar Washington, DC, heeft een aardig aandeel. Het is in de afgelopen jaren met meer dan 1 procentpunt gestegen, maar is dit een statistisch significante toename? In deze oefening bereken je de standaardfout van een aandeel en daarna een tweesteekproefs Z-statistic van de aandelen.
De formule voor de standaardfout (SE) van een aandeel is:
$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$
De formule voor de tweesteekproefs Z-statistic is:
$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$
De DataFrame dc is geladen. Deze heeft kolommen (te zien in de console) met schattingen (eindigend op "_est") en marges van fout (eindigend op "_moe") voor het totaal aantal werkenden en het aantal fietsforenzen.
De functie sqrt is geïmporteerd uit de module numpy.
Deze oefening maakt deel uit van de cursus
US Census-gegevens analyseren in Python
Oefeninstructies
- Bereken
bike_sharedoor het aantal fietsers te delen door het totale aantal werkenden - Bereken de SE van de schatting van fietsers en totaal aantal werkenden door de MOE te delen door
Z_CRIT - Bereken de SE van de aandelen:
se_bikeis de SE van de subpopulatie \(SE_n\),bike_shareis het aandeel \(P\), ense_totalis de SE van de populatie \(SE_N\) - Bereken \(Z\): \(x_1\) en \(x_2\) zijn de
bike_sharein 2017 en 2011; \(SE_{x_1}\) en \(SE_{x_2}\) zijnse_pin 2017 en 2011
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set the critical Z score for 90% confidence
Z_CRIT = 1.645
# Calculate share of bike commuting
dc["bike_share"] = ____
# Calculate standard errors of the estimate from MOEs
dc["se_bike"] = ____
dc["se_total"] = ____
dc["se_p"] = sqrt(____**2 - ____**2 * ____**2)**0.5 / dc["total_est"]
# Calculate the two sample statistic between 2011 and 2017
Z = (dc[dc["year"] == 2017]["bike_share"] - ____) / \
sqrt(____**2 + ____**2)
print(Z_CRIT < Z)