CommencerCommencer gratuitement

Construction d'un guichet avec un sac de mots

Dans cet exercice, vous allez construire votre premier compteur de sacs de mots (dans ce cours) en utilisant un article de Wikipedia, qui a été préchargé comme article. Essayez de faire le sac de mots sans regarder le texte complet de l'article, et devinez quel est le sujet ! Si vous souhaitez jeter un coup d'œil sur le titre à la fin, nous l'avons inclus à l'adresse article_title. Notez que le texte de cet article a été très peu traité à partir de l'entrée brute de la base de données de Wikipedia.

word_tokenize a été importé pour vous.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Instructions

  • Importez Counter à partir de collections.
  • Utilisez word_tokenize() pour diviser l'article en jetons.
  • Utilisez une compréhension de liste avec t comme variable itérative pour convertir tous les tokens en minuscules. La méthode .lower() convertit le texte en minuscules.
  • Créez un compteur de mots appelé bow_simple en utilisant Counter() avec lower_tokens comme argument.
  • Utilisez la méthode .most_common() de bow_simple pour imprimer les 10 jetons les plus courants.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Modifier et exécuter le code