1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 연습하는 Machine Learning 면접 질문

Connected

연습 문제

주성분 분석

이전 2개 챕터에서는 정규화와 특징 선택을 포함해 데이터셋의 차원을 줄이는 여러 방법을 살펴봤어요. Machine Learning 면접에서는 차원 축소의 다양한 측면을 설명할 수 있어야 합니다. 대규모 데이터셋은 계산에 시간이 오래 걸리고, 데이터의 잡음은 결과를 왜곡할 수 있어요.

차원 축소 방법 중 하나가 주성분 분석(principal component analysis, PCA)입니다. PCA는 데이터셋에서 가장 유용한 정보를 보존하는 새로운 특징을 만들어 데이터의 크기를 효과적으로 줄이는 동시에 다중공선성도 완화합니다. 이 연습 문제에서는 sklearn.decomposition 모듈을 사용해 diabetes 데이터셋에서 타깃 변수 progression을 분리한 뒤, 특징에 PCA를 수행해 보겠습니다.

머신 러닝 파이프라인에서 현재 위치는 다음과 같습니다:

Machine learning pipeline

지침 1/4

undefined XP
    1
    2
    3
    4
  • PCA를 수행하기 위한 관련 모듈을 가져오세요.
  • diabetes 데이터셋에서 progression을 사용해 특징 행렬 X와 타깃 배열 y를 생성하세요.