1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Pipeline pro detekci SMS spamu

SMS data jsi naposledy viděl/a před delší dobou. Tehdy jsme provedli tyto kroky:

  • rozdělení textu na tokeny
  • odstranění stop slov
  • aplikace hashovacího triku
  • převod dat z počtů na IDF
  • trénování modelu logistické regrese.

Každý z těchto kroků probíhal samostatně – a to přímo vybízí k použití pipeline!

Třídy Pipeline a LogisticRegression jsou v session už naimportované, takže se o to nemusíš starat.

Pokyny

100 XP
  • Vytvoř objekt pro rozdělení textu na tokeny.
  • Vytvoř objekt pro odstranění stop slov. Místo explicitního zadání názvu vstupního sloupce použij metodu getOutputCol() na předchozím objektu.
  • Vytvoř objekty pro aplikaci hashovacího triku a transformaci dat do podoby TF-IDF. Opět použij metodu getOutputCol().
  • Vytvoř pipeline, která zabalí všechny výše uvedené kroky i objekt pro trénování modelu logistické regrese.