1. 学ぶ
  2. /
  3. コース
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

演習

モデルのパフォーマンスを比較する

グラフを描くと、モデルがうまく機能している箇所とそうでない箇所を直感的に把握できます。一方で、モデルの良さを数値で表せると便利な場面もあります。数値化することで、モデルの精度を定量的に評価し、複数のモデルを比較しやすくなります。よく使われる指標に、二乗平均平方根誤差(RMSE:Root Mean Square Error)があります。これは残差を二乗して平均を取り、その平方根を求めたものです。同じデータセット上では、RMSE が小さいほど予測精度が高いことを示します(デフォルトでは異なるデータセット間での比較はできません。ただし、データセットを正規化すれば比較が可能になる場合もあります)。

ここでは、勾配ブースティング木とランダムフォレストの2つのモデルを比較しましょう。

指示

100 XP

both_responses は、2つのモデルによるトラックの予測年と実際の年を含むローカルな tibble として事前に定義されています。

  • 残差の平方和データセットを作成しましょう。
    • 予測値から実際の値を引いた residual 列を追加します。
    • データを model でグループ化します。
    • residual の二乗の平均の平方根を rmse という要約統計量として計算します。