Tokenizacja znaków spoza ASCII

W tym ćwiczeniu przećwiczysz zaawansowaną tokenizację na tekście zawierającym znaki spoza ASCII. Będziesz pracować z językiem niemieckim i emoji!

Masz dostęp do zmiennej german_text, której zawartość została już wyświetlona w Shell. Zwróć uwagę na emoji i niemieckie znaki!

Następujące moduły zostały wcześniej zaimportowane z nltk.tokenize: regexp_tokenize i word_tokenize.

Zakresy Unicode dla emoji:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF') oraz ('\u2600'-\u26FF-\u2700-\u27BF').

Stokenizuj wszystkie słowa w german_text za pomocą word_tokenize() i wyświetl wynik.
Stokenizuj tylko słowa pisane wielką literą w german_text.
- Najpierw napisz wzorzec o nazwie capital_words, który dopasowuje wyłącznie słowa zaczynające się wielką literą. Pamiętaj, aby uwzględnić niemiecką literę Ü! Aby użyć tego znaku w ćwiczeniu, skopiuj go i wklej z tych instrukcji.
- Następnie przeprowadź tokenizację za pomocą regexp_tokenize().
Stokenizuj tylko emoji w german_text. Wzorzec oparty na zakresach Unicode dla emoji podanych w treści ćwiczenia został już napisany. Twoim zadaniem jest użycie regexp_tokenize() do tokenizacji emoji.

ćwiczenie