3種類のサンプリング

単純、層化、クラスタサンプリングを使って、ポイント推定の性能を比較します。その前に、まずサンプルを作成しましょう。

attrition_pop データセットの RelationshipSatisfaction 列を使います。これは従業員の会社に対する満足度をカテゴリ化したもので、Low、Medium、High、Very_High の4段階があります。pandas は一般的なエイリアスで読み込まれており、random パッケージも読み込まれています。

1
- 乱数シードを 2022 に設定し、attrition_pop に対して単純無作為抽出を実行して、母集団の4分の1を取得します。

2
- 乱数シードを 2022 に設定し、attrition_pop に対して層化抽出を実行して、各 RelationshipSatisfaction グループから4分の1をサンプリングします。
3
- attrition_pop の RelationshipSatisfaction 列からユニーク値のリストを作成します。
- satisfaction_unique から2つの値を無作為抽出します。
- RelationshipSatisfaction が satisfaction_samp に含まれる行だけに母集団を絞り込み、RelationshipSatisfaction の未使用カテゴリを消去して、attrition_clust_prep に代入します。
- 選択した満足度グループでクラスタサンプリングを行い、母集団の4分の1をサンプリングし、シードを 2022 に設定します。

演習

3種類のサンプリング

指示1 / 3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示1 / 3

演習