MulaiMulai sekarang secara gratis

Masalah perbandingan berganda

Masalah perbandingan berganda muncul ketika peneliti berulang kali memeriksa variabel/sampel yang berbeda satu sama lain untuk melihat signifikansinya. Hanya karena kebetulan saja, kita berharap sesekali menemukan hasil yang signifikan secara statistik.

Dalam latihan ini Anda akan bekerja dengan data gaji karyawan di City of Austin, TX. Anda akan membandingkan gaji mereka dengan data yang dihasilkan secara acak. Anda akan melihat seberapa sering data acak ini "signifikan" dalam menjelaskan gaji karyawan. Jelas bahwa setiap "signifikansi" semacam itu adalah semu, karena angka acak tidak terlalu membantu menjelaskan apa pun!

Sebuah DataFrame berisi gaji petugas polisi (police_salaries_df) telah dimuat untuk Anda, begitu juga paket pandas sebagai pd, NumPy sebagai np, Matplotlib sebagai plt, dan stats dari SciPy.

Latihan ini adalah bagian dari kursus

Dasar-dasar Inferensi di Python

Lihat Kursus

Petunjuk latihan

  • Simpan jumlah orang dalam himpunan data ke n_rows (setiap baris mewakili satu orang), dan inisialisasi jumlah hasil signifikan, n_significant, ke nol.
  • Tulis for loop yang berjalan 1000 kali dan menghasilkan n_rows angka acak.
  • Hitung Pearson's R dan p-value terkait antara angka acak yang dihasilkan ini dan gaji petugas polisi.
  • Jika p-value signifikan pada 5%, tambahkan satu ke n_significant menggunakan operator +=.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Compute number of rows and initialize n_significant
n_rows = ____
n_significant = ____

# For loop which generates n_rows random numbers 1000 times
for i in ____:
  random_nums = np.random.uniform(size=____)
  # Compute correlation between random_nums and police salaries
  r, p_value = stats.____(____, random_nums)
  # If the p-value is significant at 5%, increment n_significant
  if ____ < ____:
    ____ += 1
    
print(n_significant)
Edit dan Jalankan Kode