1. 학습
  2. /
  3. 강의
  4. /
  5. Rで学ぶサンプリング

Connected

연습 문제

単純無作為抽出

母集団をサンプリングする最も簡単な方法は、すでに見たとおりです。これは「単純無作為抽出」(略して "SRS" と呼ばれることもあります)といい、各行が他のどの行とも同じ確率で選ばれるように、行を1つずつ無作為に選びます。

どの行がサンプルに含まれたかを見やすくするために、サンプルを取る前に行IDの列をデータセットに追加しておくと便利です。

この章では、IBMの架空の従業員離職(attrition)データセットを使ってサンプリング手法を見ていきます。ここでの「attrition」は会社を離れることを意味します。

attrition_pop が利用可能で、dplyr が読み込まれています。

지침

100 XP
  • attrition_pop データセットを表示します。ビューワーで中身を確認し、どのような列があるか把握しましょう。
  • 任意の値で乱数の種を設定します。
  • データセットに行ID列を追加し、単純無作為抽出で200行を取得します。
  • サンプルデータセット attrition_samp を表示します。行IDについてどんなことに気づきますか?