Aturan Empiris
Banyak statistik yang kita gunakan dalam analisis data (termasuk rata-rata sampel dan proporsi sampel) memiliki sifat yang membantu kita memahami parameter populasi yang menjadi perhatian.
Salah satu sifat tersebut adalah jika keragaman proporsi sampel (disebut standard error, atau \(SE\)) diketahui, maka sekitar 95% nilai \(\hat{p}\) (dari sampel yang berbeda) akan berada dalam jarak \(2SE\) dari proporsi populasi yang sebenarnya.
Untuk memeriksa apakah hal itu berlaku pada situasi ini, mari kembali ke jajak pendapat yang dihasilkan dengan mengambil banyak sampel dari populasi yang sama.
Himpunan data all_polls berisi 1000 sampel berukuran 30 dari sebuah populasi dengan probabilitas memilih Kandidat X sebesar 0,6.
Perhatikan bahwa Anda akan menggunakan fungsi R sd() yang menghitung keragaman dari sekumpulan angka. Dalam statistika, ketika sd() diterapkan pada sebuah variabel (misalnya, harga rumah) kita menyebutnya simpangan baku. Ketika sd() diterapkan pada sebuah statistik (misalnya, sekumpulan proporsi sampel) kita menyebutnya standard error.
Latihan ini adalah bagian dari kursus
Dasar-dasar Inferensi di R
Petunjuk latihan
- Jalankan kode untuk menghasilkan
props, proporsi individu yang berencana memilih ya dalam setiap jajak pendapat. Ini berdasarkanex1_propsdari latihan sebelumnya. - Tambahkan kolom
is_in_conf_intyang bernilaiTRUEketika proporsi suara ya dari sampel berjarak kurang dari2standard error dari proporsi populasi sebenarnya untuk suara ya. Artinya, selisihabs()olut antaraprop_yesdantrue_prop_yeskurang dari dua kalisd()dariprop_yes. - Hitung proporsi statistik sampel yang berada dalam selang kepercayaan,
prop_in_conf_int, dengan mengambilmean()dariis_in_conf_int.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Proportion of yes votes by poll
props <- all_polls %>%
group_by(poll) %>%
summarize(prop_yes = mean(vote == "yes"))
# The true population proportion of yes votes
true_prop_yes <- 0.6
# Proportion of polls within 2SE
props %>%
# Add column: is prop_yes in 2SE of 0.6
mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
# Calculate proportion in conf int
summarize(prop_in_conf_int = ___(___))