Bolsa de palabras con Gensim

Ahora, usarás tu nuevo corpus y diccionario de gensim para ver los términos más comunes por documento y en todos los documentos. Puedes usar tu diccionario para buscar los términos. Intenta adivinar cuáles son los temas y siéntete libre de explorar más documentos en el IPython Shell.

Tienes acceso a los objetos dictionary y corpus que creaste en el ejercicio anterior, además de defaultdict de Python y itertools para ayudarte a crear estructuras de datos intermedias para el análisis.

defaultdict nos permite inicializar un diccionario que asigna un valor por defecto a las claves inexistentes. Si pasamos el argumento int, nos aseguramos de que cualquier clave inexistente reciba automáticamente el valor 0. Esto lo hace ideal para almacenar los conteos de palabras en este ejercicio.
itertools.chain.from_iterable() nos permite iterar por un conjunto de secuencias como si fueran una única secuencia continua. Con esta función, podemos recorrer fácilmente nuestro objeto corpus (que es una lista de listas).

El quinto documento de corpus está almacenado en la variable doc, que se ha ordenado en orden descendente.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____

Editar y ejecutar código