1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rによる次元削減

Connected

演習

tidymodels での PCA

モデリングの観点では、PCA を使うと特徴量の数を減らしつつ、元データの情報を大部分保ったモデルを作成できます。ただしご覧のとおり、PCA の欠点はモデルの解釈が難しくなることです。この演習では、住宅販売データのサブセットを用いて線形回帰モデルを構築します。目的変数は price です。

主成分を抽出せずにデータから直接構築したモデルの RMSE は $236,461.4 でした。ここでは tidymodels で PCA を適用し、新しい RMSE を比較します。RMSE は小さいほど良いことを覚えておきましょう。

tidyverse と tidymodels パッケージは読み込まれています。

指示

100 XP
  • train を使って 5 つの主成分を抽出する PCA レシピを作成します。
  • 既定の linear_reg() モデル仕様でワークフローを当てはめます。
  • test を使って、実測値と予測値を含むテスト予測用データフレームを作成します。
  • PCA で次元削減した線形回帰モデルの RMSE を計算します。