Textverarbeitung mit spaCy
Jede NLP-Anwendung besteht aus mehreren Schritten der Textverarbeitung. Einige davon kennst du bereits, darunter Tokenisierung, Lemmatisierung, Satzsegmentierung und Erkennung benannter Entitäten (Named Entity Recognition).
In dieser Übung übst du weitere Schritte der Textverarbeitung in spaCy, zum Beispiel das Aufteilen des Texts in Sätze und das Extrahieren benannter Entitäten. Du verwendest die ersten fünf Rezensionen aus dem Amazon Fine Food Reviews-Datensatz. Du kannst auf diese Rezensionen über das Objekt texts zugreifen.
Das Modell en_core_web_sm wurde bereits für dich geladen und ist über nlp verfügbar. Die Liste der Doc-Container für jedes Element in texts ist ebenfalls vorab geladen und über documents zugänglich.
Diese Übung ist Teil des Kurses
Natural Language Processing mit spaCy
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a list to store sentences of each Doc container in documents
sentences = [[____ for sent in doc.____] for doc in documents]
# Print number of sentences in each Doc container in documents
num_sentences = [len(____) for s in sentences]
print("Number of sentences in documents:\n", ____)