1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 연습하는 Machine Learning 면접 질문

Connected

연습 문제

다중공선성 처리 기법 - PCA

이전 연습 문제에서는 diabetes 데이터셋에서 상관이 가장 높았던 독립 변수 s1과 s2를 특징 공학으로 결합해 s1_s2를 만들었어요.

이번 연습 문제에서는 Linear Regression을 적용하기 전에 diabetes에 PCA를 수행해 다중공선성을 제거하겠습니다. 그다음 지난 연습 문제의 결과 지표와 비교해 볼 거예요. 마지막으로, PCA가 다중공선성을 완전히 제거하므로, 데이터셋의 상관 행렬과 히트맵이 어떻게 보이는지도 시각화해 보겠습니다.

지침 1/3

undefined XP
  • 1
    • PCA 수행에 필요한 모듈을 임포트하세요.
    • 인스턴스를 생성하고 적합(fit)하세요.
    • 학습용과 테스트용을 각각 변환(transform)하세요.
  • 2
    • PCA로 변환된 데이터셋에 대해 Linear Regression을 생성, 학습, 예측하세요.
    • 모델 계수, MSE, r-squared를 출력하세요.
  • 3
    • 상관 행렬을 만들고 히트맵으로 시각화하세요.
    • 독립 변수 간의 관계를 살펴볼 수 있도록 행렬을 출력하세요.