Tokenizace non-ASCII textu

V tomto cvičení si procvičíš pokročilou tokenizaci na textu s non-ASCII znaky. Budeš pracovat s německým textem plným emoji!

Máš k dispozici řetězec german_text, který je pro tebe již vypsán v Shellu. Všimni si emoji a německých znaků!

Následující moduly jsou již naimportovány z nltk.tokenize: regexp_tokenize a word_tokenize.

Unicode rozsahy pro emoji jsou:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF') a ('\u2600'-\u26FF-\u2700-\u27BF').

Tokenizuj všechna slova v german_text pomocí word_tokenize() a výsledek vypiš na obrazovku.
Tokenizuj pouze slova začínající velkým písmenem v german_text.
- Nejprve vytvoř vzor s názvem capital_words, který zachytí jen slova začínající velkým písmenem. Nezapomeň zohlednit německé Ü! Tento znak zkopíruj a vlož přímo z těchto instrukcí.
- Pak proveď tokenizaci pomocí regexp_tokenize().
Tokenizuj pouze emoji v german_text. Vzor využívající unicode rozsahy pro emoji z textu zadání je již připravený. Tvým úkolem je použít regexp_tokenize() k tokenizaci emoji.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení