Analyse de la fréquence des mots
Félicitations ! Vous venez de rejoindre PyBooks. PyBooks développe un système de recommandation de livres et souhaite détecter des motifs et des tendances dans le texte pour améliorer ses recommandations.
Pour commencer, vous allez analyser la fréquence des mots dans un texte donné et supprimer les mots rares.
Notez que les jeux de données réels sont généralement plus volumineux que cet exemple.
Cet exercice fait partie du cours
Deep Learning pour le texte avec PyTorch
Instructions
- Importez
get_tokenizerdepuistorchtextetFreqDistdepuis la bibliothèquenltk. - Initialisez le tokenizer pour l’anglais et tokenisez le
textfourni. - Calculez la distribution de fréquence des
tokenset supprimez les mots rares à l’aide d’une compréhension de liste.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____
text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."
# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)
threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)