Pipes in spaCy hinzufügen
Du nutzt häufig ein bestehendes spaCy-Modell für verschiedene NLP-Aufgaben. In manchen Fällen braucht jedoch eine Standard-Pipeline-Komponente wie die Satzsegmentierung lange, um die erwarteten Ergebnisse zu liefern. In dieser Übung übst du, einer spaCy-Pipeline (Textverarbeitungspipeline) eine Komponente hinzuzufügen.
Für diese Übung verwendest du die ersten fünf Rezensionen aus dem Amazon Fine Food Reviews-Datensatz. Du kannst auf diese Rezensionen über den String texts zugreifen.
Das Paket spaCy ist bereits für dich importiert.
Diese Übung ist Teil des Kurses
Natural Language Processing mit spaCy
Anleitung zur Übung
- Lade ein leeres
spaCy-Englischmodell und füge dem Modell einesentencizer-Komponente hinzu. - Erstelle einen
Doc-Container für dietexts, lege eine Liste an, um diesentencesdes gegebenen Dokuments zu speichern, und gib die Anzahl der Sätze aus. - Gib die Liste der Tokens im zweiten Satz aus der
sentences-Liste aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")
# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")
# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])