BOW con n-grams y tamaño del vocabulario

En este ejercicio volverás a practicar cómo construir una bolsa de palabras utilizando el conjunto de datos reviews de reseñas de productos de Amazon. Tu tarea principal será limitar el tamaño del vocabulario y especificar la longitud de la secuencia de tokens.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

Importa el vectorizador desde sklearn.
Construye el vectorizador y asegúrate de especificar estos parámetros: el tamaño del vocabulario debe limitarse a 1000, incluir solo bigramas e ignorar términos que aparezcan en más de 500 documentos.
Ajusta el vectorizador a la columna review.
Crea un DataFrame a partir de la representación BOW.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())

Editar y ejecutar código