1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rによる推測の基礎

Connected

演習

経験則(Empirical Rule)

データ分析で使う多くの統計量(標本平均や標本比率など)には、母数をよりよく理解するために役立つ良い性質があります。

その一つが、標本比率の変動(標準誤差、$SE\()がわかっていれば、異なる標本から得られる \)\hat{p}$ の約95%は真の母比率から \(2SE\) 以内に収まる、という性質です。

これが今回の状況でも成り立つかを確かめるために、同じ母集団から多くの標本を取り出して作成した世論調査に戻ってみましょう。

all_polls データセットには、候補者Xに投票する確率が 0.6 の母集団から、サイズ30の標本を1000回抽出した結果が含まれています。

なお、任意の数値集合の変動を計算する R 関数 sd() を使います。統計学では、sd() を「変数」(例:住宅価格)に適用した場合は「標準偏差」と呼び、sd() を「統計量」(例:標本比率の集合)に適用した場合は「標準誤差」と呼びます。

指示

100 XP
  • 各調査で「yes」に投票する予定の人の比率 props を生成するコードを実行します。※これは前の演習の ex1_props を基にしています。
  • 列 is_in_conf_int を追加します。これは、「yes」の標本比率が真の母比率から標準誤差の2倍よりも近い(離れが小さい)ときに TRUE となる列です。つまり、prop_yes と true_prop_yes の abs()(絶対)差が、prop_yes の sd() の2倍より小さい場合です。
  • 信頼区間に入っている標本統計量の比率 prop_in_conf_int を、is_in_conf_int の mean() を取って計算します。