1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

SMS 스팸 최적화

앞에서 만든 SMS 스팸 분류 파이프라인은 모든 단계에 기본 파라미터를 사용했어요. 하지만 이렇게 해서 좋은 모델이 나올 가능성은 높지 않아요. 이번 연습에서는 여러 파라미터 값을 조합해 파이프라인을 실행해 보겠습니다. 체계적으로 진행하기 위해, 각 하이퍼파라미터의 값을 격자(grid)로 구성하고 파이프라인이 그리드의 각 지점을 차례로 탐색하도록 할 거예요.

이 연습에서는 교차 검증과 함께 사용할 파라미터 그리드를 설정해, SMS 스팸 분류기에 적합한 파라미터 조합을 고르도록 하겠습니다.

다음 객체들은 이미 정의되어 있어요:

  • hasher — HashingTF 객체
  • logistic — LogisticRegression 객체

지침

100 XP
  • 파라미터 그리드 빌더 객체를 생성하세요.
  • HashingTF 객체의 numFeatures와 binary 파라미터에 대한 그리드 지점을 추가하세요. 값은 각각 1024, 4096, 16384와 True, False입니다.
  • LogisticRegression 객체의 regParam과 elasticNetParam 파라미터에 대한 그리드 지점을 추가하세요. 값은 각각 0.01, 0.1, 1.0, 10.0과 0.0, 0.5, 1.0입니다.
  • 파라미터 그리드를 빌드하세요.