1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Optimalizovaný filtr SMS spamu

Pipeline, kterou jsi dříve sestavil/a pro model filtru SMS spamu, používala výchozí parametry pro všechny své součásti. Je ale velmi nepravděpodobné, že by tyto parametry vedly k obzvlášť dobrému modelu. V tomto cvičení spustíš pipeline pro různé kombinace hodnot parametrů. Budeme postupovat systematicky: hodnoty jednotlivých hyperparametrů rozložíme do mřížky a pipeline pak systematicky projde každý bod této mřížky.

V tomto cvičení nastavíš mřížku parametrů, kterou pak můžeš použít spolu s křížovou validací k výběru vhodné sady parametrů pro klasifikátor SMS spamu.

Následující objekty jsou již definovány:

  • hasher — objekt třídy HashingTF a
  • logistic — objekt třídy LogisticRegression.

Pokyny

100 XP
  • Vytvoř objekt pro sestavení mřížky parametrů.
  • Přidej body mřížky pro parametry numFeatures a binary objektu HashingTF s hodnotami 1024, 4096 a 16384, respektive True a False.
  • Přidej body mřížky pro parametry regParam a elasticNetParam objektu LogisticRegression s hodnotami 0.01, 0.1, 1.0 a 10.0, respektive 0.0, 0.5 a 1.0.
  • Sestav mřížku parametrů.