1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Tokenizace non-ASCII textu

V tomto cvičení si procvičíš pokročilou tokenizaci na textu s non-ASCII znaky. Budeš pracovat s německým textem plným emoji!

Máš k dispozici řetězec german_text, který je pro tebe již vypsán v Shellu. Všimni si emoji a německých znaků!

Následující moduly jsou již naimportovány z nltk.tokenize: regexp_tokenize a word_tokenize.

Unicode rozsahy pro emoji jsou:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF') a ('\u2600'-\u26FF-\u2700-\u27BF').

Pokyny

100 XP
  • Tokenizuj všechna slova v german_text pomocí word_tokenize() a výsledek vypiš na obrazovku.
  • Tokenizuj pouze slova začínající velkým písmenem v german_text.
    • Nejprve vytvoř vzor s názvem capital_words, který zachytí jen slova začínající velkým písmenem. Nezapomeň zohlednit německé Ü! Tento znak zkopíruj a vlož přímo z těchto instrukcí.
    • Pak proveď tokenizaci pomocí regexp_tokenize().
  • Tokenizuj pouze emoji v german_text. Vzor využívající unicode rozsahy pro emoji z textu zadání je již připravený. Tvým úkolem je použít regexp_tokenize() k tokenizaci emoji.