Aan de slagBegin gratis

Zinssegmentatie met spaCy

In deze oefening ga je oefenen met zinssegmentatie. In NLP is het opdelen van een document in zinnen een nuttige basisbewerking. Het is een van de eerste stappen in veel uitgebreidere NLP-taken, zoals het detecteren van benoemde entiteiten. Bovendien kan het vastleggen van het aantal zinnen inzicht geven in de hoeveelheid informatie in de tekst.

Je hebt toegang tot tien voedselreviews in de lijst texts.

Het model en_core_web_sm is al voor je geladen als nlp en .

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

Bekijk cursus

Oefeninstructies

  • Voer het spaCy-model uit op elk item in de lijst texts om documents samen te stellen, een lijst met alle Doc-containers.
  • Haal de zinnen uit elke doc-container door door de lijst documents te itereren en voeg ze toe aan een lijst sentences.
  • Tel het aantal zinnen in elke doc-container met behulp van de lijst sentences.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]

# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
  sentences.append([s for s in ____.____])
  
# Find number of sentences per each doc container
print([len(____) for s in sentences])
Code bewerken en uitvoeren