Construction d'un guichet avec un sac de mots
Dans cet exercice, vous allez construire votre premier compteur de sacs de mots (dans ce cours) en utilisant un article de Wikipedia, qui a été préchargé comme article
. Essayez de faire le sac de mots sans regarder le texte complet de l'article, et devinez quel est le sujet ! Si vous souhaitez jeter un coup d'œil sur le titre à la fin, nous l'avons inclus à l'adresse article_title
. Notez que le texte de cet article a été très peu traité à partir de l'entrée brute de la base de données de Wikipedia.
word_tokenize
a été importé pour vous.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
- Importez
Counter
à partir decollections
. - Utilisez
word_tokenize()
pour diviser l'article en jetons. - Utilisez une compréhension de liste avec
t
comme variable itérative pour convertir tous les tokens en minuscules. La méthode.lower()
convertit le texte en minuscules. - Créez un compteur de mots appelé
bow_simple
en utilisantCounter()
aveclower_tokens
comme argument. - Utilisez la méthode
.most_common()
debow_simple
pour imprimer les 10 jetons les plus courants.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)