CommencerCommencer gratuitement

Sac de mots avec Gensim

Vous allez maintenant utiliser votre corpus et votre dictionnaire gensim pour voir les termes les plus fréquents par document et sur l’ensemble des documents. Vous pouvez utiliser votre dictionnaire pour retrouver les termes. Essayez de deviner les sujets abordés et n’hésitez pas à explorer d’autres documents dans l’IPython Shell !

Vous avez accès aux objets dictionary et corpus créés dans l’exercice précédent, ainsi qu’à defaultdict de Python et à itertools pour vous aider à créer des structures de données intermédiaires pour l’analyse.

  • defaultdict permet d’initialiser un dictionnaire qui assigne une valeur par défaut aux clés inexistantes. En fournissant l’argument int, vous vous assurez que toute clé absente reçoit automatiquement la valeur par défaut 0. C’est idéal pour stocker les décomptes de mots dans cet exercice.

  • itertools.chain.from_iterable() permet d’itérer sur un ensemble de séquences comme s’il s’agissait d’une seule séquence continue. Grâce à cette fonction, nous pouvons facilement parcourir notre objet corpus (qui est une liste de listes).

Le cinquième document de corpus est stocké dans la variable doc, qui a été triée par ordre décroissant.

Cet exercice fait partie du cours

Introduction au Natural Language Processing (NLP) en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____
Modifier et exécuter le code