Pratique du prétraitement du texte
À présent, c'est à vous d'appliquer les techniques que vous avez apprises pour nettoyer le texte et obtenir de meilleurs résultats sur le site NLP. Vous devrez supprimer les mots vides et les caractères non alphabétiques, lemmatiser et effectuer un nouveau sac de mots sur votre texte nettoyé.
Vous commencez avec les mêmes jetons que ceux que vous avez créés dans le dernier exercice : lower_tokens. Vous avez également importé la classe Counter.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
- Importez la classe
WordNetLemmatizerà partir denltk.stem. - Créez une liste
alpha_onlyqui ne contient que des caractères alphabétiques. Vous pouvez utiliser la méthode.isalpha()pour le vérifier. - Créez une autre liste appelée
no_stopscomposée de mots dealpha_onlyqui ne sont pas contenus dansenglish_stops. - Initialisez un objet
WordNetLemmatizerappeléwordnet_lemmatizeret utilisez sa méthode.lemmatize()sur les jetons deno_stopspour créer une nouvelle liste appeléelemmatized. - Créez un nouveau site
Counterappelébowavec les mots lemmatisés. - Enfin, imprimez les 10 jetons les plus courants.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import WordNetLemmatizer
____
# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]
# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]
# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____
# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]
# Create the bag-of-words: bow
bow = ____(____)
# Print the 10 most common tokens
print(____.____(__))