Zinssegmentatie met spaCy
In deze oefening ga je oefenen met zinssegmentatie. In NLP is het opdelen van een document in zinnen een nuttige basisbewerking. Het is een van de eerste stappen in veel uitgebreidere NLP-taken, zoals het detecteren van benoemde entiteiten. Bovendien kan het vastleggen van het aantal zinnen inzicht geven in de hoeveelheid informatie in de tekst.
Je hebt toegang tot tien voedselreviews in de lijst texts.
Het model en_core_web_sm is al voor je geladen als nlp en .
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Voer het
spaCy-model uit op elk item in de lijsttextsomdocumentssamen te stellen, een lijst met alleDoc-containers. - Haal de zinnen uit elke
doc-container door door de lijstdocumentste itereren en voeg ze toe aan een lijstsentences. - Tel het aantal zinnen in elke
doc-container met behulp van de lijstsentences.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]
# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
sentences.append([s for s in ____.____])
# Find number of sentences per each doc container
print([len(____) for s in sentences])