Interpunkcja, liczby i tokeny

Pod koniec poprzedniego rozdziału wczytałeś zbiór danych z wiadomościami SMS, opatrzonymi etykietami „spam" (etykieta 1) lub „ham" (etykieta 0). Teraz wykorzystasz te dane do zbudowania modelu klasyfikacyjnego.

Najpierw jednak musisz odpowiednio przygotować wiadomości SMS:

usuń interpunkcję i liczby
dokonaj tokenizacji (podziel na pojedyncze słowa)
usuń stop words
zastosuj hashing trick
przekształć dane do reprezentacji TF-IDF.

W tym ćwiczeniu usuniesz interpunkcję i liczby, a następnie przeprowadzisz tokenizację wiadomości.

Dane SMS są dostępne jako sms.

Zaimportuj funkcję do zastępowania wyrażeń regularnych oraz narzędzie do tokenizacji.
Zastąp wszystkie znaki interpunkcyjne w kolumnie text spacją. Zrób to samo z wszystkimi liczbami w kolumnie text.
Podziel kolumnę text na tokeny. Nazwij kolumnę wyjściową words.

ćwiczenie

Interpunkcja, liczby i tokeny

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie