CommencerCommencer gratuitement

Construire un Counter avec bag-of-words

Dans cet exercice, vous allez construire votre premier compteur bag-of-words (dans ce cours) à partir d’un article Wikipédia, préchargé dans article. Essayez de créer le bag-of-words sans regarder le texte complet de l’article et devinez le sujet ! Si vous souhaitez jeter un œil au titre à la fin, nous l’avons inclus dans article_title. Notez que ce texte a subi très peu de prétraitement par rapport à l’entrée brute de la base Wikipédia.

word_tokenize a déjà été importé pour vous.

Cet exercice fait partie du cours

Introduction au Natural Language Processing (NLP) en Python

Afficher le cours

Instructions

  • Importez Counter depuis collections.
  • Utilisez word_tokenize() pour découper l’article en tokens.
  • Utilisez une compréhension de liste avec t comme variable d’itération pour convertir tous les tokens en minuscules. La méthode .lower() convertit le texte en minuscules.
  • Créez un compteur bag-of-words appelé bow_simple en utilisant Counter() avec lower_tokens comme argument.
  • Utilisez la méthode .most_common() de bow_simple pour afficher les 10 tokens les plus fréquents.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Modifier et exécuter le code