1. 학습
  2. /
  3. 강의
  4. /
  5. 마케팅 애널리틱스: Python으로 고객 이탈 예측하기

Connected

연습 문제

랜덤 탐색

# Call GridSearchCV
grid_search = GridSearchCV(clf, param_grid)

# Fit the model
grid_search.fit(X, y)

이전 연습 문제의 위 코드에서, 첫 번째 줄은 실행 시간이 거의 걸리지 않았지만 .fit() 호출은 몇 초가 걸렸다는 점을 눈치채셨을 거예요.

이는 .fit()이 실제로 그리드 서치를 수행하기 때문이며, 우리의 경우에는 다양한 조합이 많은 그리드였기 때문입니다. 하이퍼파라미터 그리드가 커질수록 그리드 서치는 느려집니다. 이 문제를 해결하려면 모든 조합을 전부 시도하는 대신, 그리드 여기저기를 무작위로 점프하며 다양한 조합을 시도할 수 있어요. 최적의 조합을 놓칠 가능성이 조금은 있지만, 많은 시간을 절약하거나 같은 시간에 더 많은 하이퍼파라미터를 튜닝할 수 있습니다.

scikit-learn에서는 RandomizedSearchCV로 이를 수행할 수 있습니다. GridSearchCV와 API는 같지만, 특정 값 목록 대신 샘플링할 수 있는 파라미터 분포를 지정해 주어야 합니다. 이제 직접 해 보겠습니다! 파라미터 분포는 미리 준비되어 있고, clf라는 랜덤 포레스트 분류기도 제공됩니다.

지침 1/3

undefined XP
    1
    2
    3
  • sklearn.model_selection에서 RandomizedSearchCV를 임포트하세요.