Lemmatizzazione con spaCy

In questo esercizio farai pratica con la lemmatizzazione. La lemmatizzazione è utile per ottenere la forma radice delle parole derivate. Questo significa che, data una qualsiasi frase, ci aspettiamo che il numero di lemmi sia minore o uguale al numero di token.

La prima recensione di prodotti alimentari su Amazon è fornita in una stringa chiamata text. en_core_web_sm è stato caricato come nlp ed eseguito su text per creare document, un contenitore Doc per la stringa di testo.

tokens, una lista che contiene i token di text, è già stata caricata e pronta per l'uso.

Questo esercizio fa parte del corso

Natural Language Processing con spaCy

Visualizza corso

Istruzioni dell'esercizio

Aggiungi il lemma per tutti i token in document, quindi stampa la lista di lemmas.
Stampa la lista tokens e osserva le differenze tra tokens e lemmas.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

document = nlp(text)
tokens = [token.text for token in document]

# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")

# Print tokens and compare with lemmas list
print("Tokens:\n", ____)

Modifica ed esegui il codice