Nicht-ASCII-Tokenisierung
In dieser Übung übst du fortgeschrittene Tokenisierung, indem du Text mit Nicht-ASCII-Zeichen tokenisierst. Du arbeitest mit Deutscher Sprache und Emoji!
Hier hast du Zugriff auf einen String namens german_text, der für dich in der Shell ausgegeben wurde. Achte auf die Emoji!
Die folgenden Module wurden aus nltk.tokenize vorab importiert: regexp_tokenize und word_tokenize.
Die Unicode-Bereiche für Emojis sind:
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), und ('\u2600'-\u26FF-\u2700-\u27BF').
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Anleitung zur Übung
- Tokenisiere alle Wörter in
german_textmitword_tokenize()und gib das Ergebnis aus. - Tokenisiere nur die großgeschriebenen Wörter in
german_text.- Schreibe zuerst ein Muster namens
capital_words, um nur großgeschriebene Wörter zu erfassen. - Tokenisiere den String anschließend mit
regexp_tokenize().
- Schreibe zuerst ein Muster namens
- Tokenisiere nur die Emoji in
german_text. Das Muster mit den in der Aufgabenbeschreibung angegebenen Unicode-Bereichen für Emoji wurde bereits für dich geschrieben. Deine Aufgabe ist es,regexp_tokenize()zu verwenden, um die Emoji zu tokenisieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))