1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Interpunkce, čísla a tokeny

Na konci předchozí kapitoly jsi načetl/a dataset SMS zpráv označených buď jako "spam" (label 1), nebo "ham" (label 0). Teď z těchto dat sestavíš klasifikační model.

Nejdřív ale budeš muset SMS zprávy připravit:

  • odstraň interpunkci a čísla
  • tokenizuj zprávy (rozděl je na jednotlivá slova)
  • odstraň stop slova
  • aplikuj hashing trick
  • převeď na TF-IDF reprezentaci.

V tomto cvičení odstraníš interpunkci a čísla a následně zprávy tokenizuješ.

SMS data jsou dostupná jako sms.

Pokyny

100 XP
  • Importuj funkci pro nahrazení regulárních výrazů a feature pro tokenizaci.
  • Nahraď všechny znaky interpunkce ve sloupci text mezerou. Totéž proveď pro všechna čísla ve sloupci text.
  • Rozděl sloupec text na tokeny. Výstupní sloupec pojmenuj words.