Nicht-Ascii-Tokenisierung
In dieser Übung übst du die fortgeschrittene Tokenisierung, indem du einen nicht-aszii-basierten Text in Token umwandelst. Du wirst Deutsch mit Emoji benutzen!
Hier hast du Zugriff auf eine Zeichenkette namens german_text
, die für dich in der Shell gedruckt wurde. Beachte das Emoji und die deutschen Schriftzeichen!
Die folgenden Module wurden von nltk.tokenize
vorimportiert: regexp_tokenize
und word_tokenize
.
Die Unicode-Bereiche für Emoji sind:
('\U0001F300'-'\U0001F5FF')
, ('\U0001F600-\U0001F64F')
, ('\U0001F680-\U0001F6FF')
, und ('\u2600'-\u26FF-\u2700-\u27BF')
.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
Tokenisiere alle Wörter in
german_text
mitword_tokenize()
und drucke das Ergebnis aus.Tokenisiere nur die großen Wörter in
german_text
.Schreibe zunächst ein Muster mit dem Namen
capital_words
, um nur große Wörter zu finden. Schau auf jeden Fall nach der deutschenÜ
! Um dieses Zeichen in der Übung zu verwenden, kopiere es und füge es aus dieser Anleitung ein.Dann tokenisiere sie mit
regexp_tokenize()
.
Tokenisiere nur die Emoji in
german_text
. Das Muster, das die im Aufgabentext angegebenen Unicode-Bereiche für Emoji verwendet, wurde für dich geschrieben. Deine Aufgabe ist es, das Emoji mitregexp_tokenize()
zu tokenisieren.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))