Random forests

Random Forests는 부트스트랩 집계(줄여서 bagging)를 통해 개별 결정 트리를 활용하는 고전적이면서 강력한 앙상블 방법입니다. 이 모델에서 핵심 하이퍼파라미터는 트리의 개수와 각 트리의 최대 깊이입니다. 이 연습 문제에서는 일부 고정된 하이퍼파라미터 값으로 간단한 random forest 분류기를 구현하고 평가해 보겠습니다.

X_train, y_train, X_test, y_test가 작업 공간에 준비되어 있어요. pandas는 pd, numpy는 np로, 그리고 sklearn도 사용할 수 있습니다. 또한 sklearn.ensemble의 RandomForestClassifier()와 sklearn.metrics의 roc_curve(), auc()도 사용할 수 있어요.