1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Interpunkcja, liczby i tokeny

Pod koniec poprzedniego rozdziału wczytałeś zbiór danych z wiadomościami SMS, opatrzonymi etykietami „spam" (etykieta 1) lub „ham" (etykieta 0). Teraz wykorzystasz te dane do zbudowania modelu klasyfikacyjnego.

Najpierw jednak musisz odpowiednio przygotować wiadomości SMS:

  • usuń interpunkcję i liczby
  • dokonaj tokenizacji (podziel na pojedyncze słowa)
  • usuń stop words
  • zastosuj hashing trick
  • przekształć dane do reprezentacji TF-IDF.

W tym ćwiczeniu usuniesz interpunkcję i liczby, a następnie przeprowadzisz tokenizację wiadomości.

Dane SMS są dostępne jako sms.

Instrukcje

100 XP
  • Zaimportuj funkcję do zastępowania wyrażeń regularnych oraz narzędzie do tokenizacji.
  • Zastąp wszystkie znaki interpunkcyjne w kolumnie text spacją. Zrób to samo z wszystkimi liczbami w kolumnie text.
  • Podziel kolumnę text na tokeny. Nazwij kolumnę wyjściową words.