Stopwords i haszowanie

Kolejne kroki to usunięcie stopwords i zastosowanie techniki haszowania, a następnie przekształcenie wyników w macierz TF-IDF.

Krótkie przypomnienie tych pojęć:

Technika haszowania zapewnia szybki i oszczędny pamięciowo sposób odwzorowania bardzo dużego (potencjalnie nieskończonego) zbioru elementów (w tym przypadku wszystkich słów z wiadomości SMS) na mniejszy, skończony zestaw wartości.
Macierz TF-IDF odzwierciedla, jak ważne jest dane słowo dla każdego dokumentu. Uwzględnia zarówno częstość występowania słowa w obrębie danego dokumentu, jak i jego częstość we wszystkich dokumentach w kolekcji.

Stokenizowane dane SMS są zapisane w sms w kolumnie o nazwie words. Dane zostały już oczyszczone pod kątem obsługi spacji, dzięki czemu stokenizowany tekst jest bardziej uporządkowany.

Zaimportuj klasy StopWordsRemover, HashingTF i IDF.
Utwórz obiekt StopWordsRemover (kolumna wejściowa words, kolumna wyjściowa terms). Zastosuj go do sms.
Utwórz obiekt HashingTF (kolumna wejściowa – wyniki poprzedniego kroku, kolumna wyjściowa hash). Zastosuj go do wrangled.
Utwórz obiekt IDF (kolumna wejściowa – wyniki poprzedniego kroku, kolumna wyjściowa features). Zastosuj go do wrangled.

ćwiczenie

Stopwords i haszowanie

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie