ランダムな学習用／テスト用分割を作る

次のいくつかの演習では、パッケージ ggplot2 のデータ mpg を使います。このデータには、さまざまな年式の複数メーカー・車種の特徴が含まれています。ここでの目標は、高速道路での燃費から市街地での燃費を予測することです。

この演習では、mpg を学習用データ mpg_train（データの 75%）とテスト用データ mpg_test（データの 25%）に分割します。これを行う 1 つの方法は、関数 runif()（docs）を使って 0 から 1 の一様乱数の列を作ることです。

サイズが \(N\) のデータセット dframe があり、\(N\) のうち約 \(100 * X\)%（\(X\) は 0 から 1 の間）をランダムに取りたいときは、次のようにします。

一様乱数のベクトルを生成します: gp = runif(N)。
dframe[gp < X,] はおおよそ目的のサイズになります。
dframe[gp >= X,] はその補集合になります。

関数 nrow（docs）を使って、データフレーム mpg の行数を取得します。結果を変数 N に代入して表示してください。
N の 75% がだいたい何行かを計算します。変数 target に代入して表示してください。
runif() を使って、N 個の一様乱数ベクトル gp を生成してください。
gp を使って mpg を mpg_train と mpg_test に分割します（mpg_train にはデータのおよそ 75% が入るようにします）。
nrow() で mpg_train と mpg_test のサイズを確認してください。おおよそ想定どおりのサイズになっていますか？