ComenzarEmpieza gratis

Analizar la dimensionalidad y el preprocesamiento

En este ejercicio se te proporciona un lem_corpus que contiene las versiones preprocesadas de los eslóganes de películas del ejercicio anterior. Es decir, los eslóganes se han pasado a minúsculas, se han lematizado y se han eliminado las stopwords.

Tu tarea es generar la representación de bolsa de palabras bow_lem_matrix para estos eslóganes lematizados y comparar su forma con la de bow_matrix obtenida en el ejercicio anterior. Las cinco primeras frases lematizadas de lem_corpus se han impreso en la consola para que las examines.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

  • Importa la clase CountVectorizer de sklearn.
  • Crea una instancia de CountVectorizer. Llámala vectorizer.
  • Usando fit_transform(), genera bow_lem_matrix para lem_corpus.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)
Editar y ejecutar código