なぜシミュレーションが必要なのでしょうか？

前のレッスンでは、dia の平均と共分散行列を使って多変量正規分布からのシミュレーションを行いました。ここでは、そのシミュレーション結果を使って興味深い問いに答えていきます。

「履歴データがあるのに、なぜシミュレーションを行うのでしょうか？データそのものから答えを出せないのですか？」と疑問に思うかもしれません。

とても良い質問です。モンテカルロ・シミュレーションは確率分布に基づいてモデル化を行い、多数のサンプルにより「確率分布全体」を観察できる点が特徴です。これは、履歴データの限られたデータ点数とは異なります。

たとえば、「このシミュレーションに登場する糖尿病患者の age 変数の0.1パーセンタイル（0.1%点）はいくつか？」といった問いを立てられます。履歴データの dia 自体ではこの問いに答えられません。レコード数が442しかなく、千分位（一千分の一の値）を計算できないためです。代わりに、モンテカルロ・シミュレーションの結果を活用できます。今まさにそれを行いましょう。

糖尿病データセットは DataFrame dia として読み込まれており、次のライブラリがインポート済みです：pandas は pd、numpy は np、scipy.stats は st。

シミュレーション結果の tc 変数について、0.1パーセンタイル（下位1000分の1）を計算してください。

演習

なぜシミュレーションが必要なのでしょうか？

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習