nearZeroVar() の代替として PCA を使う

低分散の説明変数を削除する代わりに、データセットに PCA を適用する方法があります。これはデータを丸ごと捨てないため、好ましい場合があります。複数の低分散の説明変数が 1 つの高分散な PCA 変数に統合され、モデルの精度に良い影響を与えることがあるからです。

特に線形モデルではこの方法が有効です。preProcess の pca オプションは、データのセンタリングとスケーリングを行い、低分散の変数を統合し、すべての説明変数を直交にします。これにより線形回帰モデルに最適なデータセットが作られ、しばしばモデルの精度が向上します。

bloodbrain_x と bloodbrain_y はワークスペースに読み込まれています。