Sac de mots Gensim

Vous allez maintenant utiliser votre nouveau corpus gensim et votre dictionnaire pour voir les termes les plus courants par document et dans l'ensemble des documents. Vous pouvez utiliser votre dictionnaire pour trouver les termes. Devinez quels sont les sujets abordés et n'hésitez pas à explorer d'autres documents dans le shell IPython !

Vous avez accès aux objets dictionary et corpus que vous avez créés dans l'exercice précédent, ainsi qu'aux objets Python defaultdict et itertools pour vous aider à créer des structures de données intermédiaires pour l'analyse.

defaultdict nous permet d'initialiser un dictionnaire qui attribuera une valeur par défaut aux clés inexistantes. En fournissant l'argument int, nous pouvons nous assurer que toute clé inexistante se voit automatiquement attribuer la valeur par défaut 0. Il est donc idéal pour stocker le nombre de mots dans cet exercice.
itertools.chain.from_iterable() nous permet de parcourir un ensemble de séquences comme s'il s'agissait d'une seule séquence continue. Grâce à cette fonction, nous pouvons facilement parcourir notre objet corpus (qui est une liste de listes).

Le cinquième document de corpus est stocké dans la variable doc, qui a été triée par ordre décroissant.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____

Modifier et exécuter le code