LoslegenKostenlos loslegen

Nicht-ASCII-Tokenisierung

In dieser Übung übst du fortgeschrittene Tokenisierung, indem du Text mit Nicht-ASCII-Zeichen tokenisierst. Du arbeitest mit Deutscher Sprache und Emoji!

Hier hast du Zugriff auf einen String namens german_text, der für dich in der Shell ausgegeben wurde. Achte auf die Emoji!

Die folgenden Module wurden aus nltk.tokenize vorab importiert: regexp_tokenize und word_tokenize.

Die Unicode-Bereiche für Emojis sind:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), und ('\u2600'-\u26FF-\u2700-\u27BF').

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Anleitung zur Übung

  • Tokenisiere alle Wörter in german_text mit word_tokenize() und gib das Ergebnis aus.
  • Tokenisiere nur die großgeschriebenen Wörter in german_text.
    • Schreibe zuerst ein Muster namens capital_words, um nur großgeschriebene Wörter zu erfassen.
    • Tokenisiere den String anschließend mit regexp_tokenize().
  • Tokenisiere nur die Emoji in german_text. Das Muster mit den in der Aufgabenbeschreibung angegebenen Unicode-Bereichen für Emoji wurde bereits für dich geschrieben. Deine Aufgabe ist es, regexp_tokenize() zu verwenden, um die Emoji zu tokenisieren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))
Code bearbeiten und ausführen