Créer et interroger un corpus avec gensim
Il est temps d'appliquer les méthodes que vous avez apprises dans la vidéo précédente pour créer votre premier dictionnaire et corpus gensim
!
Vous utiliserez ces structures de données pour étudier les tendances des mots et les sujets potentiellement intéressants dans votre ensemble de documents. Pour commencer, nous avons importé quelques articles désordonnés supplémentaires de Wikipédia, qui ont été prétraités en mettant tous les mots en minuscules, en les symbolisant et en supprimant les mots vides et la ponctuation. Ceux-ci ont ensuite été stockés dans une liste d'éléments de document appelée articles
. Vous devrez effectuer un léger prétraitement, puis générer le dictionnaire et le corpus gensim
.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
Importez
Dictionary
à partir degensim.corpora.dictionary
.Initialiser un site
gensim
Dictionary
avec les jetons dearticles
.Obtenez l'identifiant de
"computer"
auprès dedictionary
. Pour ce faire, utilisez la méthode.token2id
qui renvoie les identifiants à partir du texte, puis la chaîne.get()
qui renvoie les jetons à partir des identifiants. Transmettez"computer"
comme argument à.get()
.Utilisez une compréhension de liste dans laquelle vous itérez sur
articles
pour créer ungensim
MmCorpus
à partir dedictionary
.- Dans l'expression de sortie, utilisez la méthode
.doc2bow()
surdictionary
avecarticle
comme argument.
- Dans l'expression de sortie, utilisez la méthode
Imprimez les 10 premiers mots avec leur fréquence dans le cinquième document. Cela a été fait pour vous, alors cliquez sur "Soumettre la réponse" pour voir les résultats !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import Dictionary
____
# Create a Dictionary from the articles: dictionary
dictionary = ____(____)
# Select the id for "computer": computer_id
computer_id = ____.____.get("____")
# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))
# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]
# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])