BaşlayınÜcretsiz Başlayın

Çoklu karşılaştırmalar sorunu

Çoklu karşılaştırmalar sorunu, bir araştırmacı farklı değişken/örnek çiftlerini anlamlılık açısından tekrar tekrar test ettiğinde ortaya çıkar. Sırf rastlantı nedeniyle ara sıra istatistiksel olarak anlamlı bir sonuç bulmayı bekleriz.

Bu egzersizde Teksas, Austin Şehri çalışanlarının maaş verileriyle çalışacaksın. Maaşlarını rastgele üretilmiş verilerle karşılaştıracaksın. Bu rastgele verilerin çalışanların maaşlarını açıklamada ne sıklıkla "anlamlı" göründüğünü göreceksin. Elbette böyle bir "anlamlılık" sahte olacaktır; çünkü rastgele sayılar genellikle hiçbir şeyi açıklamakta işe yaramaz!

Polis memurlarının maaşlarına ait bir DataFrame (police_salaries_df) senin için yüklendi; ayrıca paketler olarak pandas pd, NumPy np, Matplotlib plt ve SciPy'dan stats hazır.

Bu egzersiz

Python'da Çıkarımın Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Veri kümesindeki kişi sayısını (her satır bir kişidir) n_rows içinde sakla ve anlamlı sonuç sayısını tutan n_significant değişkenini sıfırla başlat.
  • 1000 kez çalışan ve her seferinde n_rows adet rastgele sayı üreten bir for döngüsü yaz.
  • Bu rastgele üretilen sayılar ile polis memuru maaşları arasındaki Pearson R ve ilgili p-değerini hesapla.
  • p-değeri %5 düzeyinde anlamlıysa, += operatörünü kullanarak n_significant değerini bir artır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Compute number of rows and initialize n_significant
n_rows = ____
n_significant = ____

# For loop which generates n_rows random numbers 1000 times
for i in ____:
  random_nums = np.random.uniform(size=____)
  # Compute correlation between random_nums and police salaries
  r, p_value = stats.____(____, random_nums)
  # If the p-value is significant at 5%, increment n_significant
  if ____ < ____:
    ____ += 1
    
print(n_significant)
Kodu Düzenle ve Çalıştır