Tokenisierung mit spaCy
In dieser Übung übst du die Tokenisierung von Text. Dafür verwendest du die erste Rezension aus dem Amazon Fine Food Reviews Datensatz. Du kannst auf diese Rezension über das bereitgestellte Objekt text zugreifen.
Das Modell en_core_web_sm ist bereits für dich geladen. Du erreichst es, indem du nlp() aufrufst. Du kannst List Comprehensions verwenden, um Ausgabelisten zu erstellen.
Diese Übung ist Teil des Kurses
Natural Language Processing mit spaCy
Anleitung zur Übung
- Speichere den Doc-Container für die vorab geladene Rezension in einem Objekt
document. - Speichere die Textinhalte aller Tokens des
documentin der Variablenfirst_text_tokensund sieh sie dir an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a Doc container of the given text
document = ____(____)
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")