1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶサンプリング

Connected

演習

3種類のサンプリング

単純、層化、クラスタサンプリングを使って、ポイント推定の性能を比較します。その前に、まずサンプルを作成しましょう。

attrition_pop データセットの RelationshipSatisfaction 列を使います。これは従業員の会社に対する満足度をカテゴリ化したもので、Low、Medium、High、Very_High の4段階があります。pandas は一般的なエイリアスで読み込まれており、random パッケージも読み込まれています。

指示1 / 3

undefined XP
  • 1
    • 乱数シードを 2022 に設定し、attrition_pop に対して単純無作為抽出を実行して、母集団の4分の1を取得します。
  • 2
    • 乱数シードを 2022 に設定し、attrition_pop に対して層化抽出を実行して、各 RelationshipSatisfaction グループから4分の1をサンプリングします。
  • 3
    • attrition_pop の RelationshipSatisfaction 列からユニーク値のリストを作成します。
    • satisfaction_unique から2つの値を無作為抽出します。
    • RelationshipSatisfaction が satisfaction_samp に含まれる行だけに母集団を絞り込み、RelationshipSatisfaction の未使用カテゴリを消去して、attrition_clust_prep に代入します。
    • 選択した満足度グループでクラスタサンプリングを行い、母集団の4分の1をサンプリングし、シードを 2022 に設定します。