CommencerCommencer gratuitement

Lemmatisation avec spaCy

Dans cet exercice, vous allez vous entraîner à la lemmatisation. La lemmatisation permet d’obtenir la forme racine des mots dérivés. Concrètement, pour une phrase donnée, le nombre de lemmes est inférieur ou égal au nombre de tokens.

Le premier avis Amazon sur des produits alimentaires est fourni dans une chaîne appelée text. en_core_web_sm est chargé sous le nom nlp, et a été exécuté sur text pour produire document, un conteneur Doc pour cette chaîne.

tokens, une liste contenant les tokens de text, est également déjà chargé pour vous.

Cet exercice fait partie du cours

Traitement du langage naturel avec spaCy

Afficher le cours

Instructions

  • Ajoutez le lemme de tous les tokens dans document, puis affichez la liste lemmas.
  • Affichez la liste tokens et observez les différences entre tokens et lemmas.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

document = nlp(text)
tokens = [token.text for token in document]

# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")

# Print tokens and compare with lemmas list
print("Tokens:\n", ____)
Modifier et exécuter le code