Lemmatisierung mit spaCy
In dieser Übung übst du die Lemmatisierung. Lemmatisierung hilft dabei, die Grundform abgeleiteter Wörter zu erzeugen. Das bedeutet: Für einen beliebigen Satz erwarten wir, dass die Anzahl der Lemmata kleiner oder gleich der Anzahl der Tokens ist.
Die erste Amazon-Lebensmittelrezension ist für dich in einem String namens text bereitgestellt. en_core_web_sm ist als nlp geladen und wurde auf text ausgeführt, um document zu erstellen, einen Doc-Container für den Text-String.
tokens, eine Liste mit Tokens für den text, ist ebenfalls schon für dich geladen.
Diese Übung ist Teil des Kurses
Natural Language Processing mit spaCy
Anleitung zur Übung
- Hänge das Lemma für alle Tokens in
documentan und gib anschließend die Listelemmasaus. - Gib die Liste
tokensaus und beobachte die Unterschiede zwischentokensundlemmas.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
document = nlp(text)
tokens = [token.text for token in document]
# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")
# Print tokens and compare with lemmas list
print("Tokens:\n", ____)