의사결정나무

앞선 세 개의 장에서 Machine Learning 면접의 다양한 측면을 다루는 여러 기법을 배웠습니다. 이번 장에서는 면접에서 만들거나 설명해야 하는 어떤 모델이든 일반화 가능하고, 올바르게 평가되며, 가능한 다른 모델 중에서 적절히 선택되었는지 확인하는 다양한 방법을 살펴봅니다.

이 연습 문제에서는 loan_data 데이터셋에 대해 의사결정나무의 하이퍼파라미터 튜닝을 수행해 보겠습니다. 여기서는 추가적인 이진 분할을 만들기 위해 필요한 최소 샘플 수인 min_samples_split과 나무를 얼마나 깊게 성장시킬지 결정하는 max_depth를 튜닝합니다. 나무가 깊어질수록 분할이 늘어나며, 그만큼 데이터에 대한 정보를 더 많이 포착합니다.

특성 행렬 X와 타깃 레이블 y는 미리 불러와 두었습니다.