LoslegenKostenlos loslegen

Lemmatisierung mit spaCy

In dieser Übung übst du die Lemmatisierung. Lemmatisierung hilft dabei, die Grundform abgeleiteter Wörter zu erzeugen. Das bedeutet: Für einen beliebigen Satz erwarten wir, dass die Anzahl der Lemmata kleiner oder gleich der Anzahl der Tokens ist.

Die erste Amazon-Lebensmittelrezension ist für dich in einem String namens text bereitgestellt. en_core_web_sm ist als nlp geladen und wurde auf text ausgeführt, um document zu erstellen, einen Doc-Container für den Text-String.

tokens, eine Liste mit Tokens für den text, ist ebenfalls schon für dich geladen.

Diese Übung ist Teil des Kurses

Natural Language Processing mit spaCy

Kurs anzeigen

Anleitung zur Übung

  • Hänge das Lemma für alle Tokens in document an und gib anschließend die Liste lemmas aus.
  • Gib die Liste tokens aus und beobachte die Unterschiede zwischen tokens und lemmas.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

document = nlp(text)
tokens = [token.text for token in document]

# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")

# Print tokens and compare with lemmas list
print("Tokens:\n", ____)
Code bearbeiten und ausführen