データセットの分割

トレーニングセットとテストセットを作成するには、まず set.seed() を使ってシードを設定します。シードは乱数の起点を与えるもので、コードを実行するたびに同じ結果が再現されます。サンプリングでこれを行う利点は、同じシードを使えば自分や他の人がまったく同じトレーニングセットとテストセットを再現できることです。

sample() を使うと、観測値をトレーニングセットとテストセットにランダムに割り当てられます。

この演習では、sample() 関数の最初の 2 つの引数を使います。

最初の引数は、サンプルを抽出する元のベクトルです。行番号をインデックスとしてランダムに選びます。行番号のベクトルは 1:nrow(loan_data) で作成できます。
2 番目の引数は選ぶ要素数です。まずトレーニングセットを作るので、2 / 3 * nrow(loan_data) を指定します。

set.seed() 関数でシードを 567 に設定します。
トレーニングセットの行インデックスを index_train オブジェクトに保存します。上で説明した最初と 2 番目の引数を用いて sample() 関数を使ってください。
データセット loan_data から、index_train に保存した行番号を選択してトレーニングセットを作成し、training_set に保存します。
テストセットには index_train に含まれない行を入れます。トレーニングセットを作成したコードを流用し、角かっこの中で index_train の直前に負号（-）を付けて選択し、結果を test_set に保存します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習