ComenzarEmpieza gratis

Bolsa de palabras Gensim

Ahora, utilizarás tu nuevo corpus y diccionario gensim para ver los términos más comunes por documento y en todos los documentos. Puedes utilizar tu diccionario para buscar los términos. ¡Adivina cuáles son los temas y no dudes en explorar más documentos en IPython Shell!

Tienes acceso a los objetos dictionary y corpus que creaste en el ejercicio anterior, así como a los objetos defaultdict y itertools de Python para ayudarte en la creación de estructuras de datos intermedias para el análisis.

  • defaultdict nos permite inicializar un diccionario que asignará un valor por defecto a claves inexistentes. Proporcionando el argumento int, podemos asegurarnos de que a cualquier clave inexistente se le asigne automáticamente el valor por defecto 0. Esto lo hace ideal para almacenar el recuento de palabras en este ejercicio.

  • itertools.chain.from_iterable() nos permite iterar por un conjunto de secuencias como si fueran una secuencia continua. Utilizando esta función, podemos iterar fácilmente por nuestro objeto corpus (que es una lista de listas).

El quinto documento de corpus se almacena en la variable doc, que se ha ordenado de forma descendente.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____
Editar y ejecutar código