모든 것을 하나로 묶기

부정맥 탐지 스타트업에 합류했고, 부정맥 데이터셋 arrh로 모델을 학습하려고 해요. 랜덤 포레스트가 Kaggle 대회에서 자주 좋은 성적을 내는 것을 보고, 최대 깊이를 2, 5, 10으로 두고 그리드 서치를 통해 시도해 보려 합니다. 또한 데이터셋의 차원이 꽤 높아 보이므로 특징 선택 방법의 효과도 살펴보고자 해요.

실수로 과적합되지 않도록 이미 데이터를 분할해 두었어요. 그리드 서치에는 X_train과 y_train을 사용하고, 특징 선택이 도움이 되는지 판단하기 위해 X_test와 y_test를 사용할 거예요. 네 개의 데이터셋 폴드는 모두 환경에 미리 로드되어 있어요. 또한 GridSearchCV(), train_test_split(), SelectKBest(), chi2(), 그리고 RandomForestClassifier는 rfc로 접근할 수 있어요.