1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Suy luận trong Python

Connected

Bài tập

Vấn đề so sánh đa bội

Vấn đề so sánh đa bội xảy ra khi nhà nghiên cứu lặp đi lặp lại việc kiểm tra các biến/mẫu khác nhau với nhau để tìm ý nghĩa thống kê. Chỉ do ngẫu nhiên, chúng ta kỳ vọng thỉnh thoảng sẽ thấy một kết quả có ý nghĩa thống kê.

Trong bài tập này, bạn sẽ làm việc với dữ liệu lương của nhân viên tại Thành phố Austin, Texas. Bạn sẽ so sánh mức lương của họ với dữ liệu được tạo ngẫu nhiên. Bạn sẽ thấy dữ liệu ngẫu nhiên này "có ý nghĩa" trong việc giải thích lương của nhân viên thường xuyên đến mức nào. Rõ ràng bất kỳ "ý nghĩa" nào như vậy đều là ngụy tạo, vì các số ngẫu nhiên không giúp ích nhiều trong việc giải thích điều gì!

Một DataFrame về lương của cảnh sát (police_salaries_df) đã được nạp sẵn cho bạn, cùng với các gói pandas là pd, NumPy là np, Matplotlib là plt, và stats từ SciPy.

Hướng dẫn

100 XP
  • Lưu số người trong tập dữ liệu vào n_rows (mỗi hàng tương ứng một người), và khởi tạo số kết quả có ý nghĩa, n_significant, bằng 0.
  • Viết một vòng lặp for chạy 1000 lần và tạo n_rows số ngẫu nhiên.
  • Tính Pearson's R và p-value đi kèm giữa các số ngẫu nhiên này và mức lương của cảnh sát.
  • Nếu p-value có ý nghĩa ở mức 5%, cộng thêm một vào n_significant bằng toán tử +=.