Empirische Regel
Viele in der Datenanalyse verwendete Statistiken (einschließlich Stichprobenmittelwert und Stichprobenanteil) haben nützliche Eigenschaften, mit denen sich die interessierenden Populationsparameter besser verstehen lassen.
Eine dieser Eigenschaften besagt: Wenn die Streuung des Stichprobenanteils (der sogenannte Standardfehler, oder \(SE\)) bekannt ist, dann liegen ungefähr 95 % der \(\hat{p}\)-Werte (aus verschiedenen Stichproben) innerhalb von \(2SE\) der wahren Populationsanteils.
Um zu prüfen, ob das in unserer Situation gilt, schauen wir uns wieder die Umfragen an, die durch viele Stichproben aus derselben Population erzeugt wurden.
Der Datensatz all_polls enthält 1000 Stichproben mit Größe 30 aus einer Population, in der die Wahrscheinlichkeit, für Kandidat X zu stimmen, 0,6 beträgt.
Beachte, dass du die R-Funktion sd() verwendest, die die Streuung einer beliebigen Zahlenmenge berechnet. In der Statistik nennen wir sd() angewendet auf eine Variable (z. B. Hauspreis) die Standardabweichung. Wird sd() auf eine Statistik angewendet (z. B. eine Menge von Stichprobenanteilen), nennen wir das den Standardfehler.
Diese Übung ist Teil des Kurses
Grundlagen der Inferenz in R
Anleitung zur Übung
- Führe den Code aus, um
propszu erzeugen — den Anteil der Personen, die in jeder Umfrage mit Ja stimmen wollen. Das basiert aufex1_propsaus den vorherigen Übungen. - Füge eine Spalte
is_in_conf_inthinzu, dieTRUEist, wenn der beobachtete Stichprobenanteil der Ja-Stimmen weniger als2Standardfehler vom wahren Populationsanteil der Ja-Stimmen entfernt ist. Das heißt, dieabs()olute Differenz zwischenprop_yesundtrue_prop_yesist kleiner als das Doppelte vonsd()vonprop_yes. - Berechne den Anteil der Stichprobenstatistiken im Konfidenzintervall,
prop_in_conf_int, indem du denmean()vonis_in_conf_intbildest.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Proportion of yes votes by poll
props <- all_polls %>%
group_by(poll) %>%
summarize(prop_yes = mean(vote == "yes"))
# The true population proportion of yes votes
true_prop_yes <- 0.6
# Proportion of polls within 2SE
props %>%
# Add column: is prop_yes in 2SE of 0.6
mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
# Calculate proportion in conf int
summarize(prop_in_conf_int = ___(___))