Analizar la dimensionalidad y el preprocesamiento

En este ejercicio se te proporciona un lem_corpus que contiene las versiones preprocesadas de los eslóganes de películas del ejercicio anterior. Es decir, los eslóganes se han pasado a minúsculas, se han lematizado y se han eliminado las stopwords.

Tu tarea es generar la representación de bolsa de palabras bow_lem_matrix para estos eslóganes lematizados y comparar su forma con la de bow_matrix obtenida en el ejercicio anterior. Las cinco primeras frases lematizadas de lem_corpus se han impreso en la consola para que las examines.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

Importa la clase CountVectorizer de sklearn.
Crea una instancia de CountVectorizer. Llámala vectorizer.
Usando fit_transform(), genera bow_lem_matrix para lem_corpus.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)

Editar y ejecutar código