LoslegenKostenlos loslegen

Satzsegmentierung mit spaCy

In dieser Übung trainierst du die Satzsegmentierung. In der NLP-Pipeline ist das Aufteilen eines Dokuments in seine Sätze eine nützliche Grundoperation. Sie ist einer der ersten Schritte in vielen weiterführenden Aufgaben wie der Erkennung benannter Entitäten. Außerdem kann die Anzahl der Sätze Hinweise darauf geben, wie viel Information der Text enthält.

Dir stehen zehn Restaurantbewertungen in der Liste texts zur Verfügung.

Das Modell en_core_web_sm wurde bereits als nlp für dich geladen und .

Diese Übung ist Teil des Kurses

Natural Language Processing mit spaCy

Kurs anzeigen

Anleitung zur Übung

  • Lass das spaCy-Modell auf jedem Element der Liste texts laufen, um documents zu erstellen – eine Liste aller Doc-Container.
  • Extrahiere die Sätze jedes doc-Containers, indem du über die Liste documents iterierst, und hänge sie an eine Liste namens sentences an.
  • Zähle die Anzahl der Sätze in jedem doc-Container mithilfe der Liste sentences.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]

# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
  sentences.append([s for s in ____.____])
  
# Find number of sentences per each doc container
print([len(____) for s in sentences])
Code bearbeiten und ausführen