Lemmatisation avec spaCy
Dans cet exercice, vous allez vous entraîner à la lemmatisation. La lemmatisation permet d’obtenir la forme racine des mots dérivés. Concrètement, pour une phrase donnée, le nombre de lemmes est inférieur ou égal au nombre de tokens.
Le premier avis Amazon sur des produits alimentaires est fourni dans une chaîne appelée text. en_core_web_sm est chargé sous le nom nlp, et a été exécuté sur text pour produire document, un conteneur Doc pour cette chaîne.
tokens, une liste contenant les tokens de text, est également déjà chargé pour vous.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Instructions
- Ajoutez le lemme de tous les tokens dans
document, puis affichez la listelemmas. - Affichez la liste
tokenset observez les différences entretokensetlemmas.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
document = nlp(text)
tokens = [token.text for token in document]
# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")
# Print tokens and compare with lemmas list
print("Tokens:\n", ____)