1. Learn
  2. /
  3. Courses
  4. /
  5. Machine Learning with PySpark

Connected

Exercise

Stopslova a hašování

Dalšími kroky bude odstranění stopwords a následná aplikace hašovacího triku, kdy výsledky převedeme na TF-IDF.

Krátké připomenutí těchto konceptů:

  • Hašovací trik nabízí rychlý a paměťově úsporný způsob, jak namapovat velmi velkou (potenciálně nekonečnou) množinu prvků (v tomto případě všechna slova ze SMS zpráv) na menší, konečný počet hodnot.
  • Matice TF-IDF vyjadřuje, jak důležité je dané slovo pro každý dokument. Zohledňuje jak četnost slova v rámci jednotlivého dokumentu, tak jeho četnost napříč celou kolekcí dokumentů.

Tokenizovaná SMS data jsou uložena v sms ve sloupci words. Zpracování mezer v datech je už vyčištěno, takže tokenizovaný text je přehlednější.

Instructions

100 XP
  • Importuj třídy StopWordsRemover, HashingTF a IDF.
  • Vytvoř objekt StopWordsRemover (vstupní sloupec words, výstupní sloupec terms) a aplikuj ho na sms.
  • Vytvoř objekt HashingTF (vstup z předchozího kroku, výstupní sloupec hash) a aplikuj ho na wrangled.
  • Vytvoř objekt IDF (vstup z předchozího kroku, výstupní sloupec features) a aplikuj ho na wrangled.