LoslegenKostenlos loslegen

Pipes in spaCy hinzufügen

Du nutzt häufig ein bestehendes spaCy-Modell für verschiedene NLP-Aufgaben. In manchen Fällen braucht jedoch eine Standard-Pipeline-Komponente wie die Satzsegmentierung lange, um die erwarteten Ergebnisse zu liefern. In dieser Übung übst du, einer spaCy-Pipeline (Textverarbeitungspipeline) eine Komponente hinzuzufügen.

Für diese Übung verwendest du die ersten fünf Rezensionen aus dem Amazon Fine Food Reviews-Datensatz. Du kannst auf diese Rezensionen über den String texts zugreifen.

Das Paket spaCy ist bereits für dich importiert.

Diese Übung ist Teil des Kurses

Natural Language Processing mit spaCy

Kurs anzeigen

Anleitung zur Übung

  • Lade ein leeres spaCy-Englischmodell und füge dem Modell eine sentencizer-Komponente hinzu.
  • Erstelle einen Doc-Container für die texts, lege eine Liste an, um die sentences des gegebenen Dokuments zu speichern, und gib die Anzahl der Sätze aus.
  • Gib die Liste der Tokens im zweiten Satz aus der sentences-Liste aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])
Code bearbeiten und ausführen