1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. XGBoost로 익히는 Extreme Gradient Boosting

Connected

Exercises

의사결정나무

이번 연습 문제에서는 scikit-learn에 기본으로 포함된 breast cancer 데이터셋에 대해 scikit-learn의 DecisionTreeClassifier를 사용해 간단한 의사결정나무를 만들어 보세요.

이 데이터셋에는 유방 생검에서 측정한 개별 종양의 다양한 수치형 특징(예: 둘레, 질감 등)과 단일 결과 값(종양이 악성인지 양성인지)이 포함되어 있어요.

샘플(측정값) 데이터는 X에, 종양별 타깃 값은 y에 미리 로드해 두었습니다. 이제 전체 데이터를 학습용과 테스트용 세트로 나눈 뒤, DecisionTreeClassifier를 학습시키세요. 여기서는 max_depth라는 매개변수를 지정합니다. 이 모델에서 수정할 수 있는 다른 매개변수도 많으며, 모두 여기에서 확인할 수 있어요.

คำแนะนำ

100 XP
  • 다음을 임포트하세요:
    • sklearn.model_selection에서 train_test_split.
    • sklearn.tree에서 DecisionTreeClassifier.
  • 데이터의 20%를 테스트에 사용하도록 학습용/테스트용 세트를 만드세요. random_state는 123을 사용합니다.
  • max_depth가 4인 DecisionTreeClassifier를 dt_clf_4라는 이름으로 인스턴스화하세요. 이 매개변수는 리프 노드에 도달하기 전까지 가능한 연속 분할의 최대 횟수를 지정합니다.
  • 분류기를 학습 세트에 적합시키고, 테스트 세트의 레이블을 예측하세요.