최적의 모델 선택하기

이번 연습 문제에서는 서로 다른 분류기를 비교해 가장 성능이 좋은 모델을 고르겠습니다.

여기 제공된 데이터셋은 이미 학습용과 테스트용으로 분할되어 있으며, Pokémon의 능력치, 타입, 전설 여부로 구성되어 있습니다. 우리의 분류기는 'Legendary' 변수를 예측하는 것이 목표입니다.

세 가지 단일 분류기가 학습 세트에 적합되어 있습니다:

clf_lr는 로지스틱 회귀입니다.
clf_dt는 결정 트리입니다.
clf_knn은 5-최근접 이웃 분류기입니다.

이 데이터는 클래스 불균형이 있습니다(800마리 중 전설 포켓몬은 65마리뿐). 따라서 성능 평가는 F1-Score로 하겠습니다. Scikit-learn의 f1_score()는 이미 임포트되어 있습니다.

각 분류기인 clf_lr, clf_dt, clf_knn을 사용해 X_test의 레이블을 예측하세요.