Especifica la longitud de la secuencia de tokens con BOW
Vimos en el vídeo que, al especificar distintas longitudes de tokens (lo que llamamos n-gramas), podemos capturar mejor el contexto, algo que puede ser muy importante.
En este ejercicio, trabajarás con una muestra de reseñas de productos de Amazon. Tu tarea es construir un vocabulario BOW usando la columna review y especificar la longitud de la secuencia de tokens.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Construye el vectorizador, especificando que la longitud de la secuencia de tokens sea unigramas y bigramas.
- Ajusta el vectorizador.
- Transforma con el vectorizador ya ajustado.
- En el DataFrame, asegúrate de especificar correctamente los nombres de las columnas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())