LoslegenKostenlos loslegen

Textverarbeitung mit spaCy

Jede NLP-Anwendung besteht aus mehreren Schritten der Textverarbeitung. Einige davon kennst du bereits, darunter Tokenisierung, Lemmatisierung, Satzsegmentierung und Erkennung benannter Entitäten (Named Entity Recognition).

spaCy NLP Pipeline

In dieser Übung übst du weitere Schritte der Textverarbeitung in spaCy, zum Beispiel das Aufteilen des Texts in Sätze und das Extrahieren benannter Entitäten. Du verwendest die ersten fünf Rezensionen aus dem Amazon Fine Food Reviews-Datensatz. Du kannst auf diese Rezensionen über das Objekt texts zugreifen.

Das Modell en_core_web_sm wurde bereits für dich geladen und ist über nlp verfügbar. Die Liste der Doc-Container für jedes Element in texts ist ebenfalls vorab geladen und über documents zugänglich.

Diese Übung ist Teil des Kurses

Natural Language Processing mit spaCy

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a list to store sentences of each Doc container in documents
sentences = [[____ for sent in doc.____] for doc in documents]

# Print number of sentences in each Doc container in documents
num_sentences = [len(____) for s in sentences]
print("Number of sentences in documents:\n", ____)
Code bearbeiten und ausführen