Satzsegmentierung mit spaCy
In dieser Übung trainierst du die Satzsegmentierung. In der NLP-Pipeline ist das Aufteilen eines Dokuments in seine Sätze eine nützliche Grundoperation. Sie ist einer der ersten Schritte in vielen weiterführenden Aufgaben wie der Erkennung benannter Entitäten. Außerdem kann die Anzahl der Sätze Hinweise darauf geben, wie viel Information der Text enthält.
Dir stehen zehn Restaurantbewertungen in der Liste texts zur Verfügung.
Das Modell en_core_web_sm wurde bereits als nlp für dich geladen und .
Diese Übung ist Teil des Kurses
Natural Language Processing mit spaCy
Anleitung zur Übung
- Lass das
spaCy-Modell auf jedem Element der Listetextslaufen, umdocumentszu erstellen – eine Liste allerDoc-Container. - Extrahiere die Sätze jedes
doc-Containers, indem du über die Listedocumentsiterierst, und hänge sie an eine Liste namenssentencesan. - Zähle die Anzahl der Sätze in jedem
doc-Container mithilfe der Listesentences.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]
# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
sentences.append([s for s in ____.____])
# Find number of sentences per each doc container
print([len(____) for s in sentences])