Bag-of-words con Gensim

Ora userai il tuo gensim corpus e il dizionario per vedere i termini più comuni per documento e in tutti i documenti. Puoi usare il dizionario per cercare i termini. Prova a indovinare quali sono i topic e sentiti libero di esplorare altri documenti nella IPython Shell!

Hai accesso agli oggetti dictionary e corpus creati nell’esercizio precedente, oltre a defaultdict di Python e itertools per aiutarti a creare strutture dati intermedie per l’analisi.

defaultdict permette di inizializzare un dizionario che assegna un valore predefinito alle chiavi inesistenti. Passando l’argomento int, ci assicuriamo che qualsiasi chiave inesistente riceva automaticamente il valore predefinito 0. Questo lo rende ideale per memorizzare i conteggi delle parole in questo esercizio.
itertools.chain.from_iterable() ci consente di iterare su un insieme di sequenze come se fossero un’unica sequenza continua. Usando questa funzione, possiamo iterare facilmente sul nostro oggetto corpus (che è una lista di liste).

Il quinto documento di corpus è memorizzato nella variabile doc, che è già stato ordinato in ordine decrescente.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____

Modifica ed esegui il codice