1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tư duy Thống kê với Python (Phần 2)

Connected

Bài tập

Các bản sao bootstrap của mean và SEM

Trong bài này, bạn sẽ tính ước lượng bootstrap của hàm mật độ xác suất (PDF) của lượng mưa trung bình hằng năm tại Trạm Khí tượng Sheffield. Hãy nhớ rằng, chúng ta đang ước lượng lượng mưa trung bình hằng năm sẽ nhận được nếu Trạm Khí tượng Sheffield có thể lặp lại tất cả phép đo từ năm 1883 đến 2015 nhiều lần. Đây là một ước lượng có tính xác suất của giá trị trung bình. Bạn sẽ vẽ PDF dưới dạng biểu đồ histogram và sẽ thấy nó có phân phối Chuẩn.

Thực tế, có thể chứng minh về mặt lý thuyết rằng, dưới những điều kiện không quá chặt chẽ, giá trị trung bình sẽ luôn tuân theo phân phối Chuẩn. (Điều này không đúng nói chung cho mọi thống kê, chỉ đúng với trung bình và một vài thống kê khác.) Độ lệch chuẩn của phân phối này, gọi là sai số chuẩn của trung bình (standard error of the mean, SEM), được cho bởi độ lệch chuẩn của dữ liệu chia cho căn bậc hai của số điểm dữ liệu. Tức là với một tập dữ liệu, sem = np.std(data) / np.sqrt(len(data)). Dùng hacker stats, bạn thu được cùng kết quả này mà không cần suy diễn, và bạn sẽ kiểm chứng kết quả đó từ các bản sao bootstrap của mình.

Bộ dữ liệu đã được nạp sẵn vào mảng có tên rainfall.

Hướng dẫn

100 XP
  • Vẽ 10000 bản sao bootstrap của mean lượng mưa hằng năm bằng hàm draw_bs_reps() và mảng rainfall. Gợi ý: Truyền np.mean vào đối số func để tính mean.
    • Nhắc lại, draw_bs_reps() nhận 3 đối số: data, func, và size.
  • Tính và in sai số chuẩn của trung bình (SEM) của rainfall.
    • Công thức: np.std(data) / np.sqrt(len(data)).
  • Tính và in độ lệch chuẩn của các bản sao bootstrap bs_replicates.
  • Vẽ histogram các bản sao với đối số normed=True và 50 bins.
  • Nhấn Gửi để xem biểu đồ!