Empirische Regel

Viele in der Datenanalyse verwendete Statistiken (einschließlich Stichprobenmittelwert und Stichprobenanteil) haben nützliche Eigenschaften, mit denen sich die interessierenden Populationsparameter besser verstehen lassen.

Eine dieser Eigenschaften besagt: Wenn die Streuung des Stichprobenanteils (der sogenannte Standardfehler, oder \(SE\)) bekannt ist, dann liegen ungefähr 95 % der \(\hat{p}\)-Werte (aus verschiedenen Stichproben) innerhalb von \(2SE\) der wahren Populationsanteils.

Um zu prüfen, ob das in unserer Situation gilt, schauen wir uns wieder die Umfragen an, die durch viele Stichproben aus derselben Population erzeugt wurden.

Der Datensatz all_polls enthält 1000 Stichproben mit Größe 30 aus einer Population, in der die Wahrscheinlichkeit, für Kandidat X zu stimmen, 0,6 beträgt.

Beachte, dass du die R-Funktion sd() verwendest, die die Streuung einer beliebigen Zahlenmenge berechnet. In der Statistik nennen wir sd() angewendet auf eine Variable (z. B. Hauspreis) die Standardabweichung. Wird sd() auf eine Statistik angewendet (z. B. eine Menge von Stichprobenanteilen), nennen wir das den Standardfehler.

Diese Übung ist Teil des Kurses

Grundlagen der Inferenz in R

Kurs anzeigen

Anleitung zur Übung

Führe den Code aus, um props zu erzeugen — den Anteil der Personen, die in jeder Umfrage mit Ja stimmen wollen. Das basiert auf ex1_props aus den vorherigen Übungen.
Füge eine Spalte is_in_conf_int hinzu, die TRUE ist, wenn der beobachtete Stichprobenanteil der Ja-Stimmen weniger als 2 Standardfehler vom wahren Populationsanteil der Ja-Stimmen entfernt ist. Das heißt, die abs()olute Differenz zwischen prop_yes und true_prop_yes ist kleiner als das Doppelte von sd() von prop_yes.
Berechne den Anteil der Stichprobenstatistiken im Konfidenzintervall, prop_in_conf_int, indem du den mean() von is_in_conf_int bildest.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Proportion of yes votes by poll
props <- all_polls %>% 
  group_by(poll) %>% 
  summarize(prop_yes = mean(vote == "yes"))

# The true population proportion of yes votes
true_prop_yes <- 0.6

# Proportion of polls within 2SE
props %>%
  # Add column: is prop_yes in 2SE of 0.6
  mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
  # Calculate  proportion in conf int
  summarize(prop_in_conf_int = ___(___))

Code bearbeiten und ausführen