주성분 분석

이전 2개 챕터에서는 정규화와 특징 선택을 포함해 데이터셋의 차원을 줄이는 여러 방법을 살펴봤어요. Machine Learning 면접에서는 차원 축소의 다양한 측면을 설명할 수 있어야 합니다. 대규모 데이터셋은 계산에 시간이 오래 걸리고, 데이터의 잡음은 결과를 왜곡할 수 있어요.

차원 축소 방법 중 하나가 주성분 분석(principal component analysis, PCA)입니다. PCA는 데이터셋에서 가장 유용한 정보를 보존하는 새로운 특징을 만들어 데이터의 크기를 효과적으로 줄이는 동시에 다중공선성도 완화합니다. 이 연습 문제에서는 sklearn.decomposition 모듈을 사용해 diabetes 데이터셋에서 타깃 변수 progression을 분리한 뒤, 특징에 PCA를 수행해 보겠습니다.

머신 러닝 파이프라인에서 현재 위치는 다음과 같습니다: