Lemmatisation
En poursuivant votre analyse des avis utilisateurs, vous avez remarqué que le stemming produit parfois des formes non standard comme « fli » à partir de « flying », ce qui peut nuire à l’interprétation. Pour y remédier, vous allez maintenant utiliser la lemmatisation, qui renvoie de vrais mots et améliore la clarté et la précision de votre analyse.
WordNetLemmatizer a été importé, stop_words a été défini, et les ressources nécessaires de NLTK ont été téléchargées.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Instructions
- Créez une instance
lemmatizerde la classeWordNetLemmatizer(). - Utilisez
lemmatizerpour lemmatiserlower_tokens.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create lemmatizer
lemmatizer = ____()
# Lemmatize each token
lemmatized_tokens = [____.____(____) for ____ in clean_tokens]
print(lemmatized_tokens)