データが少ないときのSE

推定に使えるデータが少ないほど、その推定にはより大きな不確実性が伴います。これは標準誤差に反映されます。この演習では、サイズの異なるデータセットを確認しながら、この関係を体感していきます。

gss2016 から作成した小さなデータセットが2つ用意されています。50件の観測値を含む gss2016_small と、わずか10件のみの gss2016_smaller です。

1
- この gss2016_small を使って、次のおなじみの手順で boot_dist_small というブートストラップ分布を作成します。
- 成功が "High" の自信であることを示す consci 変数に関心があると specify します。
- 500個のブートストラップレプリケートを generate します。
- 各レプリケートについて prop ーションを calculate します。

2
boot_dist_small の標準偏差を用いてSEを要約し、それを取り出して SE_small_n に保存します。
3
- 同じ手順で gss2016_smaller のブートストラップ分布を生成し、boot_dist_smaller に保存します。前のコードブロックをコピー＆ペーストして、データセット名を入れ替えると効率的です。
4
- boot_dist_smaller のSEを取り出す処理も同様に行い、SE_smaller_n に保存します。ここでもコピー＆ペーストが役立ちます。
- 2つのSEとそれぞれのサンプルサイズを比較するためにコードを実行します。サンプルサイズは標準誤差にどのような影響を与えますか？