다중 비교 문제

연구자가 서로 다른 변수/표본 쌍을 반복적으로 유의한지 검사할 때 다중 비교 문제가 발생합니다. 순전히 우연에 의해서도 가끔 통계적으로 유의한 결과가 나올 수 있죠.

이 연습 문제에서는 텍사스주 오스틴 시 직원들의 급여 데이터를 다룹니다. 이들의 급여를 무작위로 생성된 데이터와 비교해 보세요. 무작위 데이터가 직원 급여를 "유의미하게" 설명하는 빈도가 얼마나 되는지 확인합니다. 물론 이런 "유의성"은 엉터리입니다. 무작위 수는 어떤 것을 설명하는 데 별로 도움이 되지 않으니까요!

경찰관 급여에 대한 DataFrame(police_salaries_df)이 로드되어 있으며, 패키지 pandas는 pd, NumPy는 np, Matplotlib은 plt, SciPy의 stats도 불러와져 있습니다.