Bolsa de palabras Gensim
Ahora, utilizarás tu nuevo corpus y diccionario gensim
para ver los términos más comunes por documento y en todos los documentos. Puedes utilizar tu diccionario para buscar los términos. ¡Adivina cuáles son los temas y no dudes en explorar más documentos en IPython Shell!
Tienes acceso a los objetos dictionary
y corpus
que creaste en el ejercicio anterior, así como a los objetos defaultdict
y itertools
de Python para ayudarte en la creación de estructuras de datos intermedias para el análisis.
defaultdict
nos permite inicializar un diccionario que asignará un valor por defecto a claves inexistentes. Proporcionando el argumentoint
, podemos asegurarnos de que a cualquier clave inexistente se le asigne automáticamente el valor por defecto0
. Esto lo hace ideal para almacenar el recuento de palabras en este ejercicio.itertools.chain.from_iterable()
nos permite iterar por un conjunto de secuencias como si fueran una secuencia continua. Utilizando esta función, podemos iterar fácilmente por nuestro objetocorpus
(que es una lista de listas).
El quinto documento de corpus
se almacena en la variable doc
, que se ha ordenado de forma descendente.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____