Wyrażenia regularne z tokenizacją NLTK

Twitter to często wykorzystywane źródło tekstu w zadaniach NLP. W tym ćwiczeniu zbudujesz bardziej zaawansowany tokenizer dla tweetów zawierających hashtagi i wzmianki, korzystając z biblioteki nltk oraz wyrażeń regularnych. Klasa nltk.tokenize.TweetTokenizer oferuje dodatkowe metody i atrybuty przydatne przy przetwarzaniu tweetów.

Do ćwiczenia przygotowano przykładowe tweety, które przeanalizujesz za pomocą TweetTokenizer oraz regexp_tokenize z modułu nltk.tokenize. Przykładowe tweety zostały wczytane do zmiennej tweets. Możesz je swobodnie przejrzeć w powłoce IPython!

W odróżnieniu od składni biblioteki regex, w funkcji nltk_tokenize() wzorzec przekazujesz jako drugi argument.

Z modułu nltk.tokenize zaimportuj regexp_tokenize oraz TweetTokenizer.

ćwiczenie

Wyrażenia regularne z tokenizacją NLTK

Instrukcje 1/4

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/4

ćwiczenie