1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による Supervised Learning:回帰

Connected

演習

テスト/トレイン分割でモデルを評価する

テストデータ mpg_test を使って、モデル mpg_model を評価しましょう。 RMSE と R-squared を計算するための関数 rmse() と r_squared() が用意されています。

rmse(predcol, ycol)
r_squared(predcol, ycol)

ここで:

  • predcol: 予測値
  • ycol: 実際の目的変数

また、予測値と実測値のプロットも作成します。

一般に、モデルの性能は学習データのほうがテストデータより良くなります(ただし、テストデータが「たまたま当たる」こともあります)。 性能に少し差があるのは問題ありませんが、学習データでの性能が大幅に良い場合は問題があります。

データフレーム mpg_train と mpg_test、モデル mpg_model、および関数 rmse() と r_squared() はすでに読み込まれています。

指示

100 XP
  • mpg_train データで、hwy から市街地燃費を予測し、予測値を列 pred に代入します。
  • mpg_test データでも同様に、hwy から市街地燃費を予測し、予測値を列 pred に代入します。
  • rmse() を使って、テストセットと学習セットの RMSE を評価します。比較して、性能は近いでしょうか?
  • r_squared() でも同じ評価を行います。性能は近いでしょうか?
  • ggplot2 を使って、テストデータでの予測値を cty に対してプロットします。