1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Pipeline do wykrywania spamu SMS

Dane SMS nie były przez chwilę w centrum uwagi. Ostatnio wykonaliśmy na nich następujące kroki:

  • podział tekstu na tokeny,
  • usunięcie stop słów,
  • zastosowanie techniki hashowania,
  • przekształcenie danych z liczby wystąpień na wartości TF-IDF,
  • wytrenowanie modelu regresji logistycznej.

Każdy z tych kroków był wykonywany osobno. To świetny przykład zastosowania pipeline'u!

Klasy Pipeline i LogisticRegression zostały już zaimportowane do sesji, więc nie musisz się tym przejmować.

Instrukcje

100 XP
  • Utwórz obiekt do podziału tekstu na tokeny.
  • Utwórz obiekt do usuwania stop słów. Zamiast podawać nazwę kolumny wejściowej wprost, użyj metody getOutputCol() na poprzednim obiekcie.
  • Utwórz obiekty do zastosowania techniki hashowania i przekształcenia danych do postaci TF-IDF. Ponownie skorzystaj z metody getOutputCol().
  • Utwórz pipeline, który połączy wszystkie powyższe kroki oraz obiekt budujący model regresji logistycznej.