Construire un Counter avec bag-of-words

Dans cet exercice, vous allez construire votre premier compteur bag-of-words (dans ce cours) à partir d’un article Wikipédia, préchargé dans article. Essayez de créer le bag-of-words sans regarder le texte complet de l’article et devinez le sujet ! Si vous souhaitez jeter un œil au titre à la fin, nous l’avons inclus dans article_title. Notez que ce texte a subi très peu de prétraitement par rapport à l’entrée brute de la base Wikipédia.

word_tokenize a déjà été importé pour vous.

Cet exercice fait partie du cours

<cours>Introduction au Natural Language Processing (NLP) en Python</cours>

Voir le cours

Instructions de l’exercice

Importez Counter depuis collections.
Utilisez word_tokenize() pour découper l’article en tokens.
Utilisez une compréhension de liste avec t comme variable d’itération pour convertir tous les tokens en minuscules. La méthode .lower() convertit le texte en minuscules.
Créez un compteur bag-of-words appelé bow_simple en utilisant Counter() avec lower_tokens comme argument.
Utilisez la méthode .most_common() de bow_simple pour afficher les 10 tokens les plus fréquents.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)

Modifier et exécuter le code