Signifikanz der Differenz von Anteilen

Radpendeln ist noch nicht sehr verbreitet, aber Washington, DC, hat einen ordentlichen Anteil. Er ist in den letzten Jahren um über 1 Prozentpunkt gestiegen – aber ist das statistisch signifikant? In dieser Übung berechnest du zunächst den Standardfehler eines Anteils und danach eine Z-Statistik für zwei Stichproben von Anteilen.

Die Formel für den Standardfehler (SE) eines Anteils lautet:

$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$

Die Formel für die Z-Statistik für zwei Stichproben lautet:

$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$

Das DataFrame dc ist geladen. Es enthält Spalten (in der Konsole angezeigt) mit Schätzwerten (Endung "_est") und Fehlermargen (Endung "_moe") für alle Erwerbstätigen und Radpendler.

Die Funktion sqrt wurde aus dem Modul numpy importiert.

Diese Übung ist Teil des Kurses

Analyse von US-Volkszählungsdaten mit Python

Kurs anzeigen

Anleitung zur Übung

Berechne bike_share, indem du die Anzahl der Radpendler durch die Gesamtzahl der Erwerbstätigen teilst
Berechne den SE der Schätzung für Radpendler und für alle Erwerbstätigen, indem du die MOE durch Z_CRIT teilst
Berechne den SE der Anteile: se_bike ist der SE der Teilpopulation $SE_n$, bike_share ist der Anteil $P$, und se_total ist der SE der Population $SE_N$
Berechne $Z$: $x_1$ und $x_2$ sind der bike_share in 2017 und 2011; $SE_{x_1}$ und $SE_{x_2}$ sind se_p in 2017 und 2011

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Set the critical Z score for 90% confidence
Z_CRIT = 1.645

# Calculate share of bike commuting
dc["bike_share"] = ____

# Calculate standard errors of the estimate from MOEs
dc["se_bike"] = ____
dc["se_total"] = ____
dc["se_p"] = sqrt(____**2 - ____**2 * ____**2)**0.5 / dc["total_est"]

# Calculate the two sample statistic between 2011 and 2017
Z = (dc[dc["year"] == 2017]["bike_share"] - ____) / \
    sqrt(____**2 + ____**2)
print(Z_CRIT < Z)

Code bearbeiten und ausführen