Lemmatization met spaCy
In deze oefening ga je oefenen met lemmatization. Lemmatization is handig om de stam- of basisvorm van afgeleide woorden te krijgen. Dit betekent dat we, voor een willekeurige zin, verwachten dat het aantal lemma’s kleiner dan of gelijk is aan het aantal tokens.
De eerste Amazon-voedselreview staat voor je klaar in een string text. en_core_web_sm is geladen als nlp en is uitgevoerd op text om document te maken, een Doc-container voor de tekststring.
tokens, een lijst met tokens voor de text, is ook al voor je beschikbaar.
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Voeg de lemma toe voor alle tokens in het
documenten print vervolgens de lijstlemmas. - Print de lijst
tokensen bekijk de verschillen tussentokensenlemmas.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
document = nlp(text)
tokens = [token.text for token in document]
# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")
# Print tokens and compare with lemmas list
print("Tokens:\n", ____)