1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Wyrażenia regularne z tokenizacją NLTK

Twitter to często wykorzystywane źródło tekstu w zadaniach NLP. W tym ćwiczeniu zbudujesz bardziej zaawansowany tokenizer dla tweetów zawierających hashtagi i wzmianki, korzystając z biblioteki nltk oraz wyrażeń regularnych. Klasa nltk.tokenize.TweetTokenizer oferuje dodatkowe metody i atrybuty przydatne przy przetwarzaniu tweetów.

Do ćwiczenia przygotowano przykładowe tweety, które przeanalizujesz za pomocą TweetTokenizer oraz regexp_tokenize z modułu nltk.tokenize. Przykładowe tweety zostały wczytane do zmiennej tweets. Możesz je swobodnie przejrzeć w powłoce IPython!

W odróżnieniu od składni biblioteki regex, w funkcji nltk_tokenize() wzorzec przekazujesz jako drugi argument.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Z modułu nltk.tokenize zaimportuj regexp_tokenize oraz TweetTokenizer.