1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 설계하는 Machine Learning 워크플로

Connected

演習

모든 것을 하나로 묶기

부정맥 탐지 스타트업에 합류했고, 부정맥 데이터셋 arrh로 모델을 학습하려고 해요. 랜덤 포레스트가 Kaggle 대회에서 자주 좋은 성적을 내는 것을 보고, 최대 깊이를 2, 5, 10으로 두고 그리드 서치를 통해 시도해 보려 합니다. 또한 데이터셋의 차원이 꽤 높아 보이므로 특징 선택 방법의 효과도 살펴보고자 해요.

실수로 과적합되지 않도록 이미 데이터를 분할해 두었어요. 그리드 서치에는 X_train과 y_train을 사용하고, 특징 선택이 도움이 되는지 판단하기 위해 X_test와 y_test를 사용할 거예요. 네 개의 데이터셋 폴드는 모두 환경에 미리 로드되어 있어요. 또한 GridSearchCV(), train_test_split(), SelectKBest(), chi2(), 그리고 RandomForestClassifier는 rfc로 접근할 수 있어요.

指示

100 XP
  • RandomForestClassifier에 대해 최대 깊이를 2, 5, 10으로 설정해 그리드 서치를 수행하고, 가장 성능이 좋은 하이퍼파라미터 설정을 저장하세요.
  • 이제 위에서 얻은 최적 설정을 사용해 추정기를 다시 학습하세요.
  • chi2 점수 함수를 사용하는 SelectKBest 특징 선택기를 적용하고, 분류기를 다시 학습하세요.