Pipes in spaCy hinzufügen
Du nutzt häufig ein bestehendes spaCy-Modell für verschiedene NLP-Aufgaben. In manchen Fällen braucht jedoch eine Standard-Pipeline-Komponente wie die Satzsegmentierung lange, um die erwarteten Ergebnisse zu liefern. In dieser Übung übst du, einer spaCy-Pipeline (Textverarbeitungspipeline) eine Komponente hinzuzufügen.
Für diese Übung verwendest du die ersten fünf Rezensionen aus dem Amazon Fine Food Reviews-Datensatz. Du kannst auf diese Rezensionen über den String texts zugreifen.
Das Paket spaCy ist bereits für dich importiert.
Diese Übung ist Teil des Kurses
<Kurs>Natural Language Processing mit spaCy</Kurs>Übungsanweisungen
- Lade ein leeres
spaCy-Englischmodell und füge dem Modell einesentencizer-Komponente hinzu. - Erstelle einen
Doc-Container für dietexts, lege eine Liste an, um diesentencesdes gegebenen Dokuments zu speichern, und gib die Anzahl der Sätze aus. - Gib die Liste der Tokens im zweiten Satz aus der
sentences-Liste aus.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")
# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")
# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])