Sac de mots avec Gensim
Vous allez maintenant utiliser votre corpus et votre dictionnaire gensim pour voir les termes les plus fréquents par document et sur l’ensemble des documents. Vous pouvez utiliser votre dictionnaire pour retrouver les termes. Essayez de deviner les sujets abordés et n’hésitez pas à explorer d’autres documents dans l’IPython Shell !
Vous avez accès aux objets dictionary et corpus créés dans l’exercice précédent, ainsi qu’à defaultdict de Python et à itertools pour vous aider à créer des structures de données intermédiaires pour l’analyse.
defaultdictpermet d’initialiser un dictionnaire qui assigne une valeur par défaut aux clés inexistantes. En fournissant l’argumentint, vous vous assurez que toute clé absente reçoit automatiquement la valeur par défaut0. C’est idéal pour stocker les décomptes de mots dans cet exercice.itertools.chain.from_iterable()permet d’itérer sur un ensemble de séquences comme s’il s’agissait d’une seule séquence continue. Grâce à cette fonction, nous pouvons facilement parcourir notre objetcorpus(qui est une liste de listes).
Le cinquième document de corpus est stocké dans la variable doc, qui a été triée par ordre décroissant.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____