1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による Supervised Learning:回帰

Connected

演習

相対誤差

この演習では、相対誤差と絶対誤差を比較します。モデリングの目的のため、相対誤差を次のように定義します。

$$ rel = \frac{(y - pred)}{y} $$

つまり、真の結果に対する相対的な誤差です。モデル全体の相対誤差は、相対二乗平均平方根誤差(root mean squared relative error)で測定します。

$$ rmse_{rel} = \sqrt(\overline{rel^2}) $$

ここで、\(\overline{rel^2}\) は \(rel^2\) の平均です。

サンプル用のデータセット fdata はあらかじめ読み込まれています。次の列が含まれます。

  • y: あるモデルが予測すべき真の出力。たとえば、来店時に顧客が使う金額だと想像してください。
  • pred: y を予測するモデルの予測値。
  • label: カテゴリ変数。y が small(小口購入)と large(大口購入)のどちらの集団に属するか。

small の購入を予測するモデルと、large の購入を予測するモデルのどちらが「より良い」かを知りたいとします。

指示

100 XP
  • 空欄を埋めてデータを確認します。大口購入は小口購入よりおよそ100倍大きい傾向があることに注目してください。
  • 空欄を埋めて誤差の列を作成します:
    • 残差を y - pred と定義します。
    • 相対誤差を residual / y と定義します。
  • 空欄を埋めて RMSE と相対RMSEを計算・比較します。
    • 絶対誤差はどう比較できますか? 相対誤差はどうでしょうか?
  • 予測値と実測値の散布図を確認します。
    • あなたの考えでは、どちらのモデルが「より良い」でしょうか?