1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による Supervised Learning:回帰

Connected

演習

ランダムな学習用/テスト用分割を作る

次のいくつかの演習では、パッケージ ggplot2 のデータ mpg を使います。このデータには、さまざまな年式の複数メーカー・車種の特徴が含まれています。ここでの目標は、高速道路での燃費から市街地での燃費を予測することです。

この演習では、mpg を学習用データ mpg_train(データの 75%)とテスト用データ mpg_test(データの 25%)に分割します。これを行う 1 つの方法は、関数 runif()(docs)を使って 0 から 1 の一様乱数の列を作ることです。

サイズが \(N\) のデータセット dframe があり、\(N\) のうち約 \(100 * X\)%(\(X\) は 0 から 1 の間)をランダムに取りたいときは、次のようにします。

  1. 一様乱数のベクトルを生成します: gp = runif(N)。
  2. dframe[gp < X,] はおおよそ目的のサイズになります。
  3. dframe[gp >= X,] はその補集合になります。

指示

100 XP
  • 関数 nrow(docs)を使って、データフレーム mpg の行数を取得します。結果を変数 N に代入して表示してください。
  • N の 75% がだいたい何行かを計算します。変数 target に代入して表示してください。
  • runif() を使って、N 個の一様乱数ベクトル gp を生成してください。
  • gp を使って mpg を mpg_train と mpg_test に分割します(mpg_train にはデータのおよそ 75% が入るようにします)。
  • nrow() で mpg_train と mpg_test のサイズを確認してください。おおよそ想定どおりのサイズになっていますか?