Construire un Counter avec bag-of-words
Dans cet exercice, vous allez construire votre premier compteur bag-of-words (dans ce cours) à partir d’un article Wikipédia, préchargé dans article. Essayez de créer le bag-of-words sans regarder le texte complet de l’article et devinez le sujet ! Si vous souhaitez jeter un œil au titre à la fin, nous l’avons inclus dans article_title. Notez que ce texte a subi très peu de prétraitement par rapport à l’entrée brute de la base Wikipédia.
word_tokenize a déjà été importé pour vous.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Instructions
- Importez
Counterdepuiscollections. - Utilisez
word_tokenize()pour découper l’article en tokens. - Utilisez une compréhension de liste avec
tcomme variable d’itération pour convertir tous les tokens en minuscules. La méthode.lower()convertit le texte en minuscules. - Créez un compteur bag-of-words appelé
bow_simpleen utilisantCounter()aveclower_tokenscomme argument. - Utilisez la méthode
.most_common()debow_simplepour afficher les 10 tokens les plus fréquents.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)