1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ caret を使った Machine Learning

Connected

演習

nearZeroVar() の代替として PCA を使う

低分散の説明変数を削除する代わりに、データセットに PCA を適用する方法があります。これはデータを丸ごと捨てないため、好ましい場合があります。複数の低分散の説明変数が 1 つの高分散な PCA 変数に統合され、モデルの精度に良い影響を与えることがあるからです。

特に線形モデルではこの方法が有効です。preProcess の pca オプションは、データのセンタリングとスケーリングを行い、低分散の変数を統合し、すべての説明変数を直交にします。これにより線形回帰モデルに最適なデータセットが作られ、しばしばモデルの精度が向上します。

指示

100 XP

bloodbrain_x と bloodbrain_y はワークスペースに読み込まれています。

  • preProcess に "pca" オプションを指定して、blood-brain の全データセットに glm モデルを当ててください。
  • コンソールにモデルを出力して結果を確認しましょう。