1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 Machine Learning을 활용한 CTR 예측

Connected

연습 문제

유방암 데이터에 대한 로지스틱 회귀

이전 연습 문제에서는 데이터를 처음으로 평가해 보았습니다. 이번 연습에서는 유방암 데이터셋에 대해 로지스틱 회귀 모델을 위한 학습/테스트 분할을 정의해 보겠습니다. 이는 모든 Machine Learning 모델을 실행하기 위한 중요한 첫 단계입니다.

유방암 데이터셋은 sklearn의 예제 데이터로, 환자별 다양한 특성이 포함되어 있으며 환자에게 유방암이 있는지 여부가 타깃 값으로 제공됩니다. 데이터는 딕셔너리 형식이며, 주요 데이터는 data라는 배열에, 타깃 값은 target이라는 배열에 저장됩니다. 따라서 cancer_data.data가 특성이고 cancer_data.target이 타깃입니다. 샘플 데이터는 cancer_data로 로드되어 있으며, pandas는 pd로 임포트되어 있습니다. LogisticRegression은 sklearn.linear_model에서 사용할 수 있습니다.

지침

100 XP
  • 각각 data와 target을 사용해 X와 y를 정의하세요.
  • X_train과 y_train은 각각 X[:300]을 이용해 X와 y의 처음 300개 샘플로 만드세요.
  • X_test와 y_test는 처음 300개 샘플을 제외한 나머지 X와 y로 만드세요. X_test에는 X[300:]을 사용하세요.