Modelo BoW para lemas de películas
En este ejercicio tienes un corpus con más de 7000 lemas (taglines) de películas. Tu tarea es generar la representación bag of words bow_matrix para esos lemas. En este ejercicio vamos a ignorar la fase de preprocesamiento de texto y generaremos bow_matrix directamente.
También vamos a examinar la forma (shape) de la bow_matrix resultante. Los cinco primeros lemas de corpus se han impreso en la consola para que los revises.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Importa la clase
CountVectorizerdesklearn. - Instancia un objeto
CountVectorizer. Llámalovectorizer. - Usando
fit_transform(), generabow_matrixa partir decorpus.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)