Pipeline do wykrywania spamu SMS

Dane SMS nie były przez chwilę w centrum uwagi. Ostatnio wykonaliśmy na nich następujące kroki:

podział tekstu na tokeny,
usunięcie stop słów,
zastosowanie techniki hashowania,
przekształcenie danych z liczby wystąpień na wartości TF-IDF,
wytrenowanie modelu regresji logistycznej.

Każdy z tych kroków był wykonywany osobno. To świetny przykład zastosowania pipeline'u!

Klasy Pipeline i LogisticRegression zostały już zaimportowane do sesji, więc nie musisz się tym przejmować.

Utwórz obiekt do podziału tekstu na tokeny.
Utwórz obiekt do usuwania stop słów. Zamiast podawać nazwę kolumny wejściowej wprost, użyj metody getOutputCol() na poprzednim obiekcie.
Utwórz obiekty do zastosowania techniki hashowania i przekształcenia danych do postaci TF-IDF. Ponownie skorzystaj z metody getOutputCol().
Utwórz pipeline, który połączy wszystkie powyższe kroki oraz obiekt budujący model regresji logistycznej.