1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Stopwords i haszowanie

Kolejne kroki to usunięcie stopwords i zastosowanie techniki haszowania, a następnie przekształcenie wyników w macierz TF-IDF.

Krótkie przypomnienie tych pojęć:

  • Technika haszowania zapewnia szybki i oszczędny pamięciowo sposób odwzorowania bardzo dużego (potencjalnie nieskończonego) zbioru elementów (w tym przypadku wszystkich słów z wiadomości SMS) na mniejszy, skończony zestaw wartości.
  • Macierz TF-IDF odzwierciedla, jak ważne jest dane słowo dla każdego dokumentu. Uwzględnia zarówno częstość występowania słowa w obrębie danego dokumentu, jak i jego częstość we wszystkich dokumentach w kolekcji.

Stokenizowane dane SMS są zapisane w sms w kolumnie o nazwie words. Dane zostały już oczyszczone pod kątem obsługi spacji, dzięki czemu stokenizowany tekst jest bardziej uporządkowany.

Instrukcje

100 XP
  • Zaimportuj klasy StopWordsRemover, HashingTF i IDF.
  • Utwórz obiekt StopWordsRemover (kolumna wejściowa words, kolumna wyjściowa terms). Zastosuj go do sms.
  • Utwórz obiekt HashingTF (kolumna wejściowa – wyniki poprzedniego kroku, kolumna wyjściowa hash). Zastosuj go do wrangled.
  • Utwórz obiekt IDF (kolumna wejściowa – wyniki poprzedniego kroku, kolumna wyjściowa features). Zastosuj go do wrangled.