Satzsegmentierung mit spaCy
In dieser Übung trainierst du die Satzsegmentierung. In der NLP-Pipeline ist das Aufteilen eines Dokuments in seine Sätze eine nützliche Grundoperation. Sie ist einer der ersten Schritte in vielen weiterführenden Aufgaben wie der Erkennung benannter Entitäten. Außerdem kann die Anzahl der Sätze Hinweise darauf geben, wie viel Information der Text enthält.
Dir stehen zehn Restaurantbewertungen in der Liste texts zur Verfügung.
Das Modell en_core_web_sm wurde bereits als nlp für dich geladen und .
Diese Übung ist Teil des Kurses
<Kurs>Natural Language Processing mit spaCy</Kurs>Übungsanweisungen
- Lass das
spaCy-Modell auf jedem Element der Listetextslaufen, umdocumentszu erstellen – eine Liste allerDoc-Container. - Extrahiere die Sätze jedes
doc-Containers, indem du über die Listedocumentsiterierst, und hänge sie an eine Liste namenssentencesan. - Zähle die Anzahl der Sätze in jedem
doc-Container mithilfe der Listesentences.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]
# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
sentences.append([s for s in ____.____])
# Find number of sentences per each doc container
print([len(____) for s in sentences])