1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Mô hình tuyến tính với Python

Connected

Bài tập

Bootstrap và Sai số chuẩn

Hãy hình dung một Vườn quốc gia nơi các kiểm lâm đi bộ mỗi ngày để bảo trì đường mòn. Họ không phải lúc nào cũng đi cùng một lộ trình, nhưng luôn ghi lại tổng quãng đường và thời gian. Chúng ta muốn xây dựng một mô hình thống kê về biến thiên quãng đường đi bộ hằng ngày dựa trên một mẫu dữ liệu hạn chế từ một kiểm lâm.

Mục tiêu của bạn là dùng bootstrap resampling, tính một giá trị trung bình cho mỗi mẫu lặp, để tạo một phân phối các giá trị trung bình, rồi tính sai số chuẩn (standard error) như một cách định lượng “độ bất định” của thống kê mẫu khi dùng nó làm ước lượng cho thống kê tổng thể.

Hãy sử dụng mảng sample_data đã nạp sẵn gồm 500 phép đo độc lập về quãng đường đã đi. Trước mắt, chúng ta dùng dữ liệu mô phỏng để đơn giản hóa bài học này. Sau đó, bạn sẽ thấy dữ liệu thực tế hơn.

Hướng dẫn

100 XP
  • Gán sample_data làm mô hình cho tổng thể.

  • Lặp num_resamples lần:

    • Mỗi lần dùng np.random.choice() để tạo bootstrap_sample có size=resample_size lấy từ population_model và chỉ định replace=True.
    • Mỗi lần hãy tính và lưu giá trị trung bình của mẫu.
  • Tính và in np.mean() và np.std() của bootstrap_means.

  • Dùng hàm dựng sẵn plot_data_hist() và trực quan hóa phân phối bootstrap_means.