Nicht-Ascii-Tokenisierung
In dieser Übung übst du die fortgeschrittene Tokenisierung, indem du einen nicht-aszii-basierten Text in Token umwandelst. Du wirst Deutsch mit Emoji benutzen!
Hier hast du Zugriff auf eine Zeichenkette namens german_text, die für dich in der Shell gedruckt wurde. Beachte das Emoji und die deutschen Schriftzeichen!
Die folgenden Module wurden von nltk.tokenize vorimportiert: regexp_tokenize und word_tokenize.
Die Unicode-Bereiche für Emoji sind:
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), und ('\u2600'-\u26FF-\u2700-\u27BF').
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
Tokenisiere alle Wörter in
german_textmitword_tokenize()und drucke das Ergebnis aus.Tokenisiere nur die großen Wörter in
german_text.Schreibe zunächst ein Muster mit dem Namen
capital_words, um nur große Wörter zu finden. Schau auf jeden Fall nach der deutschenÜ! Um dieses Zeichen in der Übung zu verwenden, kopiere es und füge es aus dieser Anleitung ein.Dann tokenisiere sie mit
regexp_tokenize().
Tokenisiere nur die Emoji in
german_text. Das Muster, das die im Aufgabentext angegebenen Unicode-Bereiche für Emoji verwendet, wurde für dich geschrieben. Deine Aufgabe ist es, das Emoji mitregexp_tokenize()zu tokenisieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))