유방암 데이터에 대한 로지스틱 회귀

이전 연습 문제에서는 데이터를 처음으로 평가해 보았습니다. 이번 연습에서는 유방암 데이터셋에 대해 로지스틱 회귀 모델을 위한 학습/테스트 분할을 정의해 보겠습니다. 이는 모든 Machine Learning 모델을 실행하기 위한 중요한 첫 단계입니다.

유방암 데이터셋은 sklearn의 예제 데이터로, 환자별 다양한 특성이 포함되어 있으며 환자에게 유방암이 있는지 여부가 타깃 값으로 제공됩니다. 데이터는 딕셔너리 형식이며, 주요 데이터는 data라는 배열에, 타깃 값은 target이라는 배열에 저장됩니다. 따라서 cancer_data.data가 특성이고 cancer_data.target이 타깃입니다. 샘플 데이터는 cancer_data로 로드되어 있으며, pandas는 pd로 임포트되어 있습니다. LogisticRegression은 sklearn.linear_model에서 사용할 수 있습니다.