Interpunkce, čísla a tokeny

Na konci předchozí kapitoly jsi načetl/a dataset SMS zpráv označených buď jako "spam" (label 1), nebo "ham" (label 0). Teď z těchto dat sestavíš klasifikační model.

Nejdřív ale budeš muset SMS zprávy připravit:

odstraň interpunkci a čísla
tokenizuj zprávy (rozděl je na jednotlivá slova)
odstraň stop slova
aplikuj hashing trick
převeď na TF-IDF reprezentaci.

V tomto cvičení odstraníš interpunkci a čísla a následně zprávy tokenizuješ.

SMS data jsou dostupná jako sms.

Importuj funkci pro nahrazení regulárních výrazů a feature pro tokenizaci.
Nahraď všechny znaky interpunkce ve sloupci text mezerou. Totéž proveď pro všechna čísla ve sloupci text.
Rozděl sloupec text na tokeny. Výstupní sloupec pojmenuj words.