Sac de mots Gensim
Vous allez maintenant utiliser votre nouveau corpus gensim
et votre dictionnaire pour voir les termes les plus courants par document et dans l'ensemble des documents. Vous pouvez utiliser votre dictionnaire pour trouver les termes. Devinez quels sont les sujets abordés et n'hésitez pas à explorer d'autres documents dans le shell IPython !
Vous avez accès aux objets dictionary
et corpus
que vous avez créés dans l'exercice précédent, ainsi qu'aux objets Python defaultdict
et itertools
pour vous aider à créer des structures de données intermédiaires pour l'analyse.
defaultdict
nous permet d'initialiser un dictionnaire qui attribuera une valeur par défaut aux clés inexistantes. En fournissant l'argumentint
, nous pouvons nous assurer que toute clé inexistante se voit automatiquement attribuer la valeur par défaut0
. Il est donc idéal pour stocker le nombre de mots dans cet exercice.itertools.chain.from_iterable()
nous permet de parcourir un ensemble de séquences comme s'il s'agissait d'une seule séquence continue. Grâce à cette fonction, nous pouvons facilement parcourir notre objetcorpus
(qui est une liste de listes).
Le cinquième document de corpus
est stocké dans la variable doc
, qui a été triée par ordre décroissant.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____