MulaiMulai sekarang secara gratis

Aturan Empiris

Banyak statistik yang kita gunakan dalam analisis data (termasuk rata-rata sampel dan proporsi sampel) memiliki sifat yang membantu kita memahami parameter populasi yang menjadi perhatian.

Salah satu sifat tersebut adalah jika keragaman proporsi sampel (disebut standard error, atau \(SE\)) diketahui, maka sekitar 95% nilai \(\hat{p}\) (dari sampel yang berbeda) akan berada dalam jarak \(2SE\) dari proporsi populasi yang sebenarnya.

Untuk memeriksa apakah hal itu berlaku pada situasi ini, mari kembali ke jajak pendapat yang dihasilkan dengan mengambil banyak sampel dari populasi yang sama.

Himpunan data all_polls berisi 1000 sampel berukuran 30 dari sebuah populasi dengan probabilitas memilih Kandidat X sebesar 0,6.

Perhatikan bahwa Anda akan menggunakan fungsi R sd() yang menghitung keragaman dari sekumpulan angka. Dalam statistika, ketika sd() diterapkan pada sebuah variabel (misalnya, harga rumah) kita menyebutnya simpangan baku. Ketika sd() diterapkan pada sebuah statistik (misalnya, sekumpulan proporsi sampel) kita menyebutnya standard error.

Latihan ini adalah bagian dari kursus

Dasar-dasar Inferensi di R

Lihat Kursus

Petunjuk latihan

  • Jalankan kode untuk menghasilkan props, proporsi individu yang berencana memilih ya dalam setiap jajak pendapat. Ini berdasarkan ex1_props dari latihan sebelumnya.
  • Tambahkan kolom is_in_conf_int yang bernilai TRUE ketika proporsi suara ya dari sampel berjarak kurang dari 2 standard error dari proporsi populasi sebenarnya untuk suara ya. Artinya, selisih abs()olut antara prop_yes dan true_prop_yes kurang dari dua kali sd() dari prop_yes.
  • Hitung proporsi statistik sampel yang berada dalam selang kepercayaan, prop_in_conf_int, dengan mengambil mean() dari is_in_conf_int.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Proportion of yes votes by poll
props <- all_polls %>% 
  group_by(poll) %>% 
  summarize(prop_yes = mean(vote == "yes"))

# The true population proportion of yes votes
true_prop_yes <- 0.6

# Proportion of polls within 2SE
props %>%
  # Add column: is prop_yes in 2SE of 0.6
  mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
  # Calculate  proportion in conf int
  summarize(prop_in_conf_int = ___(___))
Edit dan Jalankan Kode