Especifica la longitud de la secuencia de tokens con BOW

Vimos en el vídeo que, al especificar distintas longitudes de tokens (lo que llamamos n-gramas), podemos capturar mejor el contexto, algo que puede ser muy importante.

En este ejercicio, trabajarás con una muestra de reseñas de productos de Amazon. Tu tarea es construir un vocabulario BOW usando la columna review y especificar la longitud de la secuencia de tokens.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

Construye el vectorizador, especificando que la longitud de la secuencia de tokens sea unigramas y bigramas.
Ajusta el vectorizador.
Transforma con el vectorizador ya ajustado.
En el DataFrame, asegúrate de especificar correctamente los nombres de las columnas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())

Editar y ejecutar código