Aan de slagGa gratis aan de slag

Zinssegmentatie met spaCy

In deze oefening ga je oefenen met zinssegmentatie. In NLP is het opdelen van een document in zinnen een nuttige basisbewerking. Het is een van de eerste stappen in veel uitgebreidere NLP-taken, zoals het detecteren van benoemde entiteiten. Bovendien kan het vastleggen van het aantal zinnen inzicht geven in de hoeveelheid informatie in de tekst.

Je hebt toegang tot tien voedselreviews in de lijst texts.

Het model en_core_web_sm is al voor je geladen als nlp en .

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

Cursus bekijken

Oefeninstructies

  • Voer het spaCy-model uit op elk item in de lijst texts om documents samen te stellen, een lijst met alle Doc-containers.
  • Haal de zinnen uit elke doc-container door door de lijst documents te itereren en voeg ze toe aan een lijst sentences.
  • Tel het aantal zinnen in elke doc-container met behulp van de lijst sentences.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]

# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
  sentences.append([s for s in ____.____])
  
# Find number of sentences per each doc container
print([len(____) for s in sentences])
Code bewerken en uitvoeren