1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wyrażenia regularne w Pythonie

Connected

ćwiczenie

Pozyskiwanie tokenów

Kolejnym krokiem jest tokenizacja tekstu tweetów. Tokenizacja to proces podziału ciągu znaków na jednostki leksykalne – czyli, mówiąc prościej, na słowa. Najpierw jednak musisz usunąć hashtagi, żeby nie zakłócały dalszego przetwarzania. Hashtagi zaczynają się od symbolu # i zawierają litery oraz cyfry, ale nigdy białe znaki. Po ich usunięciu podzielisz tekst w miejscach białych znaków, aby uzyskać tokeny.

Możesz skorzystać z listy kwantyfikatorów: * – zero lub więcej razy, + – raz lub więcej, ? – zero lub raz, {n, m} – minimum n, maksimum m.

Zmienna sentiment_analysis zawierająca tekst jednego tweeta oraz moduł re są już załadowane w sesji. Możesz użyć print(sentiment_analysis), aby wyświetlić jej zawartość w powłoce IPython.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Napisz wyrażenie regularne dopasowujące opisany wzorzec hashtaga. Przypisz je do zmiennej regex.