LoslegenKostenlos starten

Tokenisierung mit spaCy

In dieser Übung übst du die Tokenisierung von Text. Dafür verwendest du die erste Rezension aus dem Amazon Fine Food Reviews Datensatz. Du kannst auf diese Rezension über das bereitgestellte Objekt text zugreifen.

Das Modell en_core_web_sm ist bereits für dich geladen. Du erreichst es, indem du nlp() aufrufst. Du kannst List Comprehensions verwenden, um Ausgabelisten zu erstellen.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing mit spaCy</Kurs>
Kurs ansehen

Übungsanweisungen

  • Speichere den Doc-Container für die vorab geladene Rezension in einem Objekt document.
  • Speichere die Textinhalte aller Tokens des document in der Variablen first_text_tokens und sieh sie dir an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")
Code bearbeiten und ausführen