LoslegenKostenlos starten

Pipes in spaCy hinzufügen

Du nutzt häufig ein bestehendes spaCy-Modell für verschiedene NLP-Aufgaben. In manchen Fällen braucht jedoch eine Standard-Pipeline-Komponente wie die Satzsegmentierung lange, um die erwarteten Ergebnisse zu liefern. In dieser Übung übst du, einer spaCy-Pipeline (Textverarbeitungspipeline) eine Komponente hinzuzufügen.

Für diese Übung verwendest du die ersten fünf Rezensionen aus dem Amazon Fine Food Reviews-Datensatz. Du kannst auf diese Rezensionen über den String texts zugreifen.

Das Paket spaCy ist bereits für dich importiert.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing mit spaCy</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade ein leeres spaCy-Englischmodell und füge dem Modell eine sentencizer-Komponente hinzu.
  • Erstelle einen Doc-Container für die texts, lege eine Liste an, um die sentences des gegebenen Dokuments zu speichern, und gib die Anzahl der Sätze aus.
  • Gib die Liste der Tokens im zweiten Satz aus der sentences-Liste aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])
Code bearbeiten und ausführen