Analyse de la fréquence des mots

Félicitations ! Vous venez de rejoindre PyBooks. PyBooks développe un système de recommandation de livres et souhaite détecter des motifs et des tendances dans le texte pour améliorer ses recommandations.

Pour commencer, vous allez analyser la fréquence des mots dans un texte donné et supprimer les mots rares.

Notez que les jeux de données réels sont généralement plus volumineux que cet exemple.

Cet exercice fait partie du cours

Deep Learning pour le texte avec PyTorch

Afficher le cours

Instructions

Importez get_tokenizer depuis torchtext et FreqDist depuis la bibliothèque nltk.
Initialisez le tokenizer pour l’anglais et tokenisez le text fourni.
Calculez la distribution de fréquence des tokens et supprimez les mots rares à l’aide d’une compréhension de liste.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____

text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."

# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)

threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)

Modifier et exécuter le code