nearZeroVar()의 대안으로 PCA 사용하기

저분산 예측 변수를 제거하는 대신, 데이터셋에 PCA를 적용하는 방법도 있습니다. 이 방법은 데이터를 모두 버리지 않기 때문에 더 나을 때가 있어요. 여러 개의 저분산 예측 변수가 하나의 고분산 PCA 변수로 결합되어, 모델 정확도에 긍정적인 영향을 줄 수도 있습니다.

이는 특히 선형 모델에서 좋은 요령입니다. preProcess의 pca 옵션은 데이터를 중심화하고 스케일을 표준화하며, 저분산 변수를 결합하고, 모든 예측 변수가 서로 직교하도록 보장합니다. 이렇게 준비된 데이터셋은 선형 회귀 모델링에 이상적이며, 종종 모델 정확도를 높여 줍니다.

bloodbrain_x와 bloodbrain_y가 작업 공간에 로드되어 있습니다.