Lemmatizzazione con spaCy
In questo esercizio farai pratica con la lemmatizzazione. La lemmatizzazione è utile per ottenere la forma radice delle parole derivate. Questo significa che, data una qualsiasi frase, ci aspettiamo che il numero di lemmi sia minore o uguale al numero di token.
La prima recensione di prodotti alimentari su Amazon è fornita in una stringa chiamata text. en_core_web_sm è stato caricato come nlp ed eseguito su text per creare document, un contenitore Doc per la stringa di testo.
tokens, una lista che contiene i token di text, è già stata caricata e pronta per l'uso.
Questo esercizio fa parte del corso
Natural Language Processing con spaCy
Istruzioni dell'esercizio
- Aggiungi il lemma per tutti i token in
document, quindi stampa la lista dilemmas. - Stampa la lista
tokense osserva le differenze tratokenselemmas.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
document = nlp(text)
tokens = [token.text for token in document]
# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")
# Print tokens and compare with lemmas list
print("Tokens:\n", ____)