ランダムなテストデータセットの作成

より高度な融資モデルを作る前に、将来の申込者の結果をどの程度予測できるかを評価するため、データの一部を取り置いておくことが重要です。

次の図のとおり、全観測のうち 75% を学習用、25% をテスト用に使うことができます。

sample() 関数を使うと、学習用データに含める行をランダムサンプリングできます。全観測数と学習に必要な件数を引数として渡すだけです。

得られた行 ID のベクトルを使って、loans データを学習用とテスト用にサブセット化しましょう。データセット loans は用意されています。

nrow() 関数を使って、loans データセットの観測数と、75% サンプルに必要な件数を求めます。
sample() 関数を使って、75% サンプル用の行 ID の整数ベクトルを作成します。sample() の第1引数はデータセットの行数、第2引数は学習用に必要な行数です。
行 ID を使って loans をサブセットし、学習用データセットを作成して loans_train として保存します。
もう一度 loans をサブセットし、今度は sample_rows に含まれないすべての行を選択して、loans_test として保存します。