Nicht-Ascii-Tokenisierung

In dieser Übung übst du die fortgeschrittene Tokenisierung, indem du einen nicht-aszii-basierten Text in Token umwandelst. Du wirst Deutsch mit Emoji benutzen!

Hier hast du Zugriff auf eine Zeichenkette namens german_text, die für dich in der Shell gedruckt wurde. Beachte das Emoji und die deutschen Schriftzeichen!

Die folgenden Module wurden von nltk.tokenize vorimportiert: regexp_tokenize und word_tokenize.

Die Unicode-Bereiche für Emoji sind:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), und ('\u2600'-\u26FF-\u2700-\u27BF').

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Anleitung zur Übung

  • Tokenisiere alle Wörter in german_text mit word_tokenize() und drucke das Ergebnis aus.

  • Tokenisiere nur die großen Wörter in german_text.

    • Schreibe zunächst ein Muster mit dem Namen capital_words, um nur große Wörter zu finden. Schau auf jeden Fall nach der deutschen Ü! Um dieses Zeichen in der Übung zu verwenden, kopiere es und füge es aus dieser Anleitung ein.

    • Dann tokenisiere sie mit regexp_tokenize().

  • Tokenisiere nur die Emoji in german_text. Das Muster, das die im Aufgabentext angegebenen Unicode-Bereiche für Emoji verwendet, wurde für dich geschrieben. Deine Aufgabe ist es, das Emoji mit regexp_tokenize() zu tokenisieren.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))