1. Learn
  2. /
  3. 课程
  4. /
  5. Uczenie maszynowe z PySpark

Connected

道练习

Optymalizacja klasyfikatora spamu SMS

Potok zbudowany wcześniej dla modelu klasyfikacji spamu SMS korzystał z domyślnych parametrów wszystkich swoich elementów. Jest mało prawdopodobne, żeby te parametry dawały szczególnie dobry model. W tym ćwiczeniu uruchomisz potok dla wybranego zestawu wartości parametrów. Podejdziemy do tego systematycznie: wartości każdego z hiperparametrów zostaną rozłożone na siatce, a potok będzie kolejno sprawdzał każdy punkt tej siatki.

W tym ćwiczeniu skonfigurujesz siatkę parametrów, którą będzie można wykorzystać z kross-walidacją do wyboru dobrego zestawu parametrów dla klasyfikatora spamu SMS.

Następujące obiekty są już zdefiniowane:

  • hasher — obiekt HashingTF oraz
  • logistic — obiekt LogisticRegression.

说明

100 XP
  • Utwórz obiekt konstruktora siatki parametrów.
  • Dodaj punkty siatki dla parametrów numFeatures i binary do obiektu HashingTF, podając odpowiednio wartości 1024, 4096 i 16384 oraz True i False.
  • Dodaj punkty siatki dla parametrów regParam i elasticNetParam do obiektu LogisticRegression, podając odpowiednio wartości 0.01, 0.1, 1.0 i 10.0 oraz 0.0, 0.5 i 1.0.
  • Zbuduj siatkę parametrów.