다중공선성 기법 - 피처 엔지니어링

다중공선성은 어떤 Machine Learning 맥락에서도 성능에 영향을 줄 수 있는 흔한 이슈입니다. 이 작은 부분을 어떻게 설명하는지에 따라 모델링 설명이 한층 탄탄해지고, 면접에서도 차별화될 수 있어요.

이 연습 문제에서는 diabetes 데이터셋에 대해 Linear Regression을 사용해 기준(baseline) 모델을 만들고, 일부 출력 지표를 살펴보겠습니다. 이어서 독립 변수들 간의 상관관계를 시각적으로 탐색하는 방법을 연습한 다음, 서로 높은 상관을 보이는 변수 2개를 대상으로 피처 엔지니어링을 수행해 보겠습니다.

처음 두 단계에서는 워크스페이스에 이미 불러온 X_train, X_test, y_train, 그리고 y_test를 사용하세요.

또한 필요한 패키지는 모두 가져와 두었습니다: pandas는 pd, sklearn.model_selection의 train_test_split, sklearn.linear_model의 LinearRegression, sklearn.metrics의 mean_squared_error와 r2_score, matplotlib.pyplot은 plt, seaborn은 sns로 임포트되어 있습니다.

1
- Linear Regression을 생성하고, 학습(fit)한 뒤 예측하세요.
- 모델 계수, MSE, 그리고 결정계수(r-squared)를 출력하세요.

2
- 상관행렬을 만들고, 이를 히트맵으로 시각화하세요.
- 독립 변수 간의 관계를 살펴보기 위해 행렬을 출력하세요.
3
- diabetes의 s1과 s2를 결합해 새로운 피처를 만든 다음, 두 변수를 제거하세요.
- 테스트 비율을 30%로 설정해 학습/테스트 데이터로 분할하고, 열 이름을 출력하세요.
4
- Linear Regression을 생성하고, 학습(fit)한 뒤 예측하세요.
- 모델 계수, MSE, 그리고 결정계수(r-squared)를 출력하세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침 1/4

연습 문제