Pozyskiwanie tokenów

Kolejnym krokiem jest tokenizacja tekstu tweetów. Tokenizacja to proces podziału ciągu znaków na jednostki leksykalne – czyli, mówiąc prościej, na słowa. Najpierw jednak musisz usunąć hashtagi, żeby nie zakłócały dalszego przetwarzania. Hashtagi zaczynają się od symbolu # i zawierają litery oraz cyfry, ale nigdy białe znaki. Po ich usunięciu podzielisz tekst w miejscach białych znaków, aby uzyskać tokeny.

Możesz skorzystać z listy kwantyfikatorów: * – zero lub więcej razy, + – raz lub więcej, ? – zero lub raz, {n, m} – minimum n, maksimum m.

Zmienna sentiment_analysis zawierająca tekst jednego tweeta oraz moduł re są już załadowane w sesji. Możesz użyć print(sentiment_analysis), aby wyświetlić jej zawartość w powłoce IPython.

Napisz wyrażenie regularne dopasowujące opisany wzorzec hashtaga. Przypisz je do zmiennej regex.

ćwiczenie

Pozyskiwanie tokenów

Instrukcje 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/3

ćwiczenie