Analizar la dimensionalidad y el preprocesamiento
En este ejercicio se te proporciona un lem_corpus que contiene las versiones preprocesadas de los eslóganes de películas del ejercicio anterior. Es decir, los eslóganes se han pasado a minúsculas, se han lematizado y se han eliminado las stopwords.
Tu tarea es generar la representación de bolsa de palabras bow_lem_matrix para estos eslóganes lematizados y comparar su forma con la de bow_matrix obtenida en el ejercicio anterior. Las cinco primeras frases lematizadas de lem_corpus se han impreso en la consola para que las examines.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Importa la clase
CountVectorizerdesklearn. - Crea una instancia de
CountVectorizer. Llámalavectorizer. - Usando
fit_transform(), generabow_lem_matrixparalem_corpus.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)