1. 学ぶ
  2. /
  3. コース
  4. /
  5. R で学ぶクレジットリスク・モデリング

Connected

演習

データセットの分割

トレーニングセットとテストセットを作成するには、まず set.seed() を使ってシードを設定します。シードは乱数の起点を与えるもので、コードを実行するたびに同じ結果が再現されます。サンプリングでこれを行う利点は、同じシードを使えば自分や他の人がまったく同じトレーニングセットとテストセットを再現できることです。

sample() を使うと、観測値をトレーニングセットとテストセットにランダムに割り当てられます。

この演習では、sample() 関数の最初の 2 つの引数を使います。

  • 最初の引数は、サンプルを抽出する元のベクトルです。行番号をインデックスとしてランダムに選びます。行番号のベクトルは 1:nrow(loan_data) で作成できます。
  • 2 番目の引数は選ぶ要素数です。まずトレーニングセットを作るので、2 / 3 * nrow(loan_data) を指定します。

指示

100 XP
  • set.seed() 関数でシードを 567 に設定します。
  • トレーニングセットの行インデックスを index_train オブジェクトに保存します。上で説明した最初と 2 番目の引数を用いて sample() 関数を使ってください。
  • データセット loan_data から、index_train に保存した行番号を選択してトレーニングセットを作成し、training_set に保存します。
  • テストセットには index_train に含まれない行を入れます。トレーニングセットを作成したコードを流用し、角かっこの中で index_train の直前に負号(-)を付けて選択し、結果を test_set に保存します。