Signifikanz der Differenz von Anteilen
Radpendeln ist noch nicht sehr verbreitet, aber Washington, DC, hat einen ordentlichen Anteil. Er ist in den letzten Jahren um über 1 Prozentpunkt gestiegen – aber ist das statistisch signifikant? In dieser Übung berechnest du zunächst den Standardfehler eines Anteils und danach eine Z-Statistik für zwei Stichproben von Anteilen.
Die Formel für den Standardfehler (SE) eines Anteils lautet:
$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$
Die Formel für die Z-Statistik für zwei Stichproben lautet:
$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$
Das DataFrame dc ist geladen. Es enthält Spalten (in der Konsole angezeigt) mit Schätzwerten (Endung "_est") und Fehlermargen (Endung "_moe") für alle Erwerbstätigen und Radpendler.
Die Funktion sqrt wurde aus dem Modul numpy importiert.
Diese Übung ist Teil des Kurses
Analyse von US-Volkszählungsdaten mit Python
Anleitung zur Übung
- Berechne
bike_share, indem du die Anzahl der Radpendler durch die Gesamtzahl der Erwerbstätigen teilst - Berechne den SE der Schätzung für Radpendler und für alle Erwerbstätigen, indem du die MOE durch
Z_CRITteilst - Berechne den SE der Anteile:
se_bikeist der SE der Teilpopulation \(SE_n\),bike_shareist der Anteil \(P\), undse_totalist der SE der Population \(SE_N\) - Berechne \(Z\): \(x_1\) und \(x_2\) sind der
bike_sharein 2017 und 2011; \(SE_{x_1}\) und \(SE_{x_2}\) sindse_pin 2017 und 2011
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Set the critical Z score for 90% confidence
Z_CRIT = 1.645
# Calculate share of bike commuting
dc["bike_share"] = ____
# Calculate standard errors of the estimate from MOEs
dc["se_bike"] = ____
dc["se_total"] = ____
dc["se_p"] = sqrt(____**2 - ____**2 * ____**2)**0.5 / dc["total_est"]
# Calculate the two sample statistic between 2011 and 2017
Z = (dc[dc["year"] == 2017]["bike_share"] - ____) / \
sqrt(____**2 + ____**2)
print(Z_CRIT < Z)