Aan de slagGa gratis aan de slag

Tekstverwerking met spaCy

Elke NLP-toepassing bestaat uit meerdere stappen voor tekstverwerking. Je hebt al een paar van deze stappen geleerd, zoals tokenization, lemmatization, zinssegmentatie en named entity recognition.

spaCy NLP Pipeline

In deze oefening ga je verder oefenen met tekstverwerkingsstappen in spaCy, zoals het opdelen van de tekst in zinnen en het extraheren van entiteiten. Je gebruikt hiervoor de eerste vijf reviews uit de Amazon Fine Food Reviews-gegevensset. Je kunt deze reviews benaderen via het object texts.

Het model en_core_web_sm is al voor je geladen en je kunt het benaderen met nlp. De lijst met Doc-containers voor elk item in texts is ook vooraf geladen en toegankelijk via documents.

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a list to store sentences of each Doc container in documents
sentences = [[____ for sent in doc.____] for doc in documents]

# Print number of sentences in each Doc container in documents
num_sentences = [len(____) for s in sentences]
print("Number of sentences in documents:\n", ____)
Code bewerken en uitvoeren