BOW con n-grams y tamaño del vocabulario
En este ejercicio volverás a practicar cómo construir una bolsa de palabras utilizando el conjunto de datos reviews de reseñas de productos de Amazon. Tu tarea principal será limitar el tamaño del vocabulario y especificar la longitud de la secuencia de tokens.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Importa el vectorizador desde
sklearn. - Construye el vectorizador y asegúrate de especificar estos parámetros: el tamaño del vocabulario debe limitarse a 1000, incluir solo bigramas e ignorar términos que aparezcan en más de 500 documentos.
- Ajusta el vectorizador a la columna
review. - Crea un DataFrame a partir de la representación BOW.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
#Import the vectorizer
from sklearn.____.____ import ____
# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)
# Transform the review
X_review = vect.transform(reviews.review)
# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())