1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark로 하는 Machine Learning

Connected

演習

Random Forest로 지연 항공편 예측하기

이번 연습에서는 교차 검증과 앙상블 기법을 함께 사용해 보겠습니다. 지연 항공편을 예측하기 위해 Random Forest 분류기를 학습하고, 교차 검증으로 모델 파라미터의 최적 값을 고를 거예요.

다음 파라미터의 좋은 값을 찾아 보겠습니다:

  • featureSubsetStrategy — 각 노드에서 분할을 할 때 고려할 특성의 수
  • maxDepth — 어떤 가지에서든 허용되는 최대 분할(깊이) 수

아쉽게도 이 모델을 학습하는 데 너무 오래 걸리므로, 파이프라인에 대해 .fit() 메서드는 실행하지 않겠습니다.

RandomForestClassifier 클래스는 이미 세션에 임포트되어 있습니다.

指示

100 XP
  • Random Forest 분류기 객체를 생성하세요.
  • 파라미터 그리드 빌더 객체를 생성하고 featureSubsetStrategy와 maxDepth 파라미터에 대한 그리드 포인트를 추가하세요.
  • 이진 분류 평가자를 생성하세요.
  • 추정기, 파라미터 그리드, 평가자를 지정해 교차 검증 객체를 생성하세요. 5-겹 교차 검증을 사용합니다.