Modelo BoW para lemas de películas

En este ejercicio tienes un corpus con más de 7000 lemas (taglines) de películas. Tu tarea es generar la representación bag of words bow_matrix para esos lemas. En este ejercicio vamos a ignorar la fase de preprocesamiento de texto y generaremos bow_matrix directamente.

También vamos a examinar la forma (shape) de la bow_matrix resultante. Los cinco primeros lemas de corpus se han impreso en la consola para que los revises.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

Importa la clase CountVectorizer de sklearn.
Instancia un objeto CountVectorizer. Llámalo vectorizer.
Usando fit_transform(), genera bow_matrix a partir de corpus.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Print the shape of bow_matrix
print(bow_matrix.shape)

Editar y ejecutar código