Pratique du prétraitement du texte

À présent, c'est à vous d'appliquer les techniques que vous avez apprises pour nettoyer le texte et obtenir de meilleurs résultats sur le site NLP. Vous devrez supprimer les mots vides et les caractères non alphabétiques, lemmatiser et effectuer un nouveau sac de mots sur votre texte nettoyé.

Vous commencez avec les mêmes jetons que ceux que vous avez créés dans le dernier exercice : lower_tokens. Vous avez également importé la classe Counter.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Instructions

Importez la classe WordNetLemmatizer à partir de nltk.stem.
Créez une liste alpha_only qui ne contient que des caractères alphabétiques. Vous pouvez utiliser la méthode .isalpha() pour le vérifier.
Créez une autre liste appelée no_stops composée de mots de alpha_only qui ne sont pas contenus dans english_stops.
Initialisez un objet WordNetLemmatizer appelé wordnet_lemmatizer et utilisez sa méthode .lemmatize() sur les jetons de no_stops pour créer une nouvelle liste appelée lemmatized.
Créez un nouveau site Counter appelé bow avec les mots lemmatisés.
Enfin, imprimez les 10 jetons les plus courants.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))

Modifier et exécuter le code