Vì sao chúng ta cần mô phỏng?

Trong bài trước, bạn đã mô phỏng phân phối chuẩn đa biến dựa trên giá trị trung bình và ma trận hiệp phương sai của dia. Giờ hãy dùng các kết quả mô phỏng đó để trả lời những câu hỏi bạn quan tâm!

Bạn có thể hỏi: tại sao phải mô phỏng khi đã có dữ liệu lịch sử? Chẳng phải chỉ cần dùng chính dữ liệu là trả lời được sao?

Câu hỏi rất hay. Mô phỏng Monte Carlo dựa trên việc mô hình hóa bằng các phân phối xác suất, giúp bạn có được toàn bộ phân phối xác suất để khảo sát (rất nhiều mẫu), thay vì số điểm dữ liệu hạn chế trong dữ liệu lịch sử.

Ví dụ, bạn có thể hỏi phân vị 0,1% của biến age đối với bệnh nhân đái tháo đường trong mô phỏng là bao nhiêu? Ta không thể trả lời bằng dữ liệu lịch sử dia riêng lẻ: vì nó chỉ có 442 bản ghi, ta không thể tính được giá trị đứng thứ một phần nghìn. Thay vào đó, bạn có thể tận dụng kết quả của mô phỏng Monte Carlo — điều mà bạn sắp làm ngay bây giờ!

Bộ dữ liệu diabetes đã được nạp thành DataFrame dia, và các thư viện sau đã được nhập sẵn cho bạn: pandas là pd, numpy là np, và scipy.stats là st.

Tính phân vị 0,1% (giá trị nhỏ nhất ở vị trí 1/1000) của biến tc trong kết quả mô phỏng.

Bài tập

Vì sao chúng ta cần mô phỏng?

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập