Non-ascii のトークン化

この演習では、ASCII 以外を含むテキストの高度なトークン化を練習します。ドイツ語と絵文字を使います。

シェルには german_text という文字列が用意され、すでに出力されています。絵文字やドイツ語の文字に注目してください。

nltk.tokenize から regexp_tokenize と word_tokenize があらかじめインポートされています。

絵文字の Unicode 範囲は次のとおりです。

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), および ('\u2600'-\u26FF-\u2700-\u27BF')。

word_tokenize() を使って german_text のすべての単語をトークン化し、結果を出力してください。
german_text のうち、先頭が大文字の単語だけをトークン化してください。
- まず、先頭が大文字の単語だけにマッチするパターン capital_words を作成します。ドイツ語の Ü を必ず考慮してください。この文字は指示からコピー＆ペーストして使ってください。
- 次に、regexp_tokenize() を使ってトークン化します。
german_text の絵文字だけをトークン化してください。課題文で示した絵文字の Unicode 範囲を使うパターンは用意済みです。あなたの作業は、regexp_tokenize() を使って絵文字をトークン化することです。