Pratique du prétraitement du texte
À présent, c'est à vous d'appliquer les techniques que vous avez apprises pour nettoyer le texte et obtenir de meilleurs résultats sur le site NLP. Vous devrez supprimer les mots vides et les caractères non alphabétiques, lemmatiser et effectuer un nouveau sac de mots sur votre texte nettoyé.
Vous commencez avec les mêmes jetons que ceux que vous avez créés dans le dernier exercice : lower_tokens
. Vous avez également importé la classe Counter
.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
- Importez la classe
WordNetLemmatizer
à partir denltk.stem
. - Créez une liste
alpha_only
qui ne contient que des caractères alphabétiques. Vous pouvez utiliser la méthode.isalpha()
pour le vérifier. - Créez une autre liste appelée
no_stops
composée de mots dealpha_only
qui ne sont pas contenus dansenglish_stops
. - Initialisez un objet
WordNetLemmatizer
appeléwordnet_lemmatizer
et utilisez sa méthode.lemmatize()
sur les jetons deno_stops
pour créer une nouvelle liste appeléelemmatized
. - Créez un nouveau site
Counter
appelébow
avec les mots lemmatisés. - Enfin, imprimez les 10 jetons les plus courants.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import WordNetLemmatizer
____
# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]
# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]
# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____
# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]
# Create the bag-of-words: bow
bow = ____(____)
# Print the 10 most common tokens
print(____.____(__))