Çoklu karşılaştırmalar sorunu
Çoklu karşılaştırmalar sorunu, bir araştırmacı farklı değişken/örnek çiftlerini anlamlılık açısından tekrar tekrar test ettiğinde ortaya çıkar. Sırf rastlantı nedeniyle ara sıra istatistiksel olarak anlamlı bir sonuç bulmayı bekleriz.
Bu egzersizde Teksas, Austin Şehri çalışanlarının maaş verileriyle çalışacaksın. Maaşlarını rastgele üretilmiş verilerle karşılaştıracaksın. Bu rastgele verilerin çalışanların maaşlarını açıklamada ne sıklıkla "anlamlı" göründüğünü göreceksin. Elbette böyle bir "anlamlılık" sahte olacaktır; çünkü rastgele sayılar genellikle hiçbir şeyi açıklamakta işe yaramaz!
Polis memurlarının maaşlarına ait bir DataFrame (police_salaries_df) senin için yüklendi; ayrıca paketler olarak pandas pd, NumPy np, Matplotlib plt ve SciPy'dan stats hazır.
Bu egzersiz
Python'da Çıkarımın Temelleri
kursunun bir parçasıdırEgzersiz talimatları
- Veri kümesindeki kişi sayısını (her satır bir kişidir)
n_rowsiçinde sakla ve anlamlı sonuç sayısını tutann_significantdeğişkenini sıfırla başlat. - 1000 kez çalışan ve her seferinde
n_rowsadet rastgele sayı üreten birfordöngüsü yaz. - Bu rastgele üretilen sayılar ile polis memuru maaşları arasındaki Pearson R ve ilgili p-değerini hesapla.
- p-değeri %5 düzeyinde anlamlıysa,
+=operatörünü kullanarakn_significantdeğerini bir artır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Compute number of rows and initialize n_significant
n_rows = ____
n_significant = ____
# For loop which generates n_rows random numbers 1000 times
for i in ____:
random_nums = np.random.uniform(size=____)
# Compute correlation between random_nums and police salaries
r, p_value = stats.____(____, random_nums)
# If the p-value is significant at 5%, increment n_significant
if ____ < ____:
____ += 1
print(n_significant)