Masalah perbandingan berganda
Masalah perbandingan berganda muncul ketika peneliti berulang kali memeriksa variabel/sampel yang berbeda satu sama lain untuk melihat signifikansinya. Hanya karena kebetulan saja, kita berharap sesekali menemukan hasil yang signifikan secara statistik.
Dalam latihan ini Anda akan bekerja dengan data gaji karyawan di City of Austin, TX. Anda akan membandingkan gaji mereka dengan data yang dihasilkan secara acak. Anda akan melihat seberapa sering data acak ini "signifikan" dalam menjelaskan gaji karyawan. Jelas bahwa setiap "signifikansi" semacam itu adalah semu, karena angka acak tidak terlalu membantu menjelaskan apa pun!
Sebuah DataFrame berisi gaji petugas polisi (police_salaries_df) telah dimuat untuk Anda, begitu juga paket pandas sebagai pd, NumPy sebagai np, Matplotlib sebagai plt, dan stats dari SciPy.
Latihan ini adalah bagian dari kursus
Dasar-dasar Inferensi di Python
Petunjuk latihan
- Simpan jumlah orang dalam himpunan data ke
n_rows(setiap baris mewakili satu orang), dan inisialisasi jumlah hasil signifikan,n_significant, ke nol. - Tulis
forloop yang berjalan 1000 kali dan menghasilkann_rowsangka acak. - Hitung Pearson's R dan p-value terkait antara angka acak yang dihasilkan ini dan gaji petugas polisi.
- Jika p-value signifikan pada 5%, tambahkan satu ke
n_significantmenggunakan operator+=.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Compute number of rows and initialize n_significant
n_rows = ____
n_significant = ____
# For loop which generates n_rows random numbers 1000 times
for i in ____:
random_nums = np.random.uniform(size=____)
# Compute correlation between random_nums and police salaries
r, p_value = stats.____(____, random_nums)
# If the p-value is significant at 5%, increment n_significant
if ____ < ____:
____ += 1
print(n_significant)