RF 모델의 성능 지표

이전 연습 문제에서는 랜덤 포레스트 모델의 정확도를 계산했어요. 하지만 사기 탐지의 경우 accuracy는 오해를 부를 수 있습니다. 사기 데이터처럼 클래스 불균형이 큰 상황에서는 AUROC 곡선이 서로 다른 분류기를 비교할 때 더 신뢰할 수 있는 성능 지표예요. 또한 classification report는 모델의 정밀도(precision)와 재현율(recall)을 알려주고, confusion matrix는 실제로 몇 건의 사기 사례를 올바르게 예측했는지를 보여줍니다. 이제 이 성능 지표들을 구해 보겠습니다.

이전 연습 문제의 같은 랜덤 포레스트 모델을 계속 사용합니다. model = RandomForestClassifier(random_state=5)로 정의된 모델은 이미 학습 데이터에 적합(fit)되어 있으며, X_train, y_train, X_test, y_test가 준비되어 있어요.