ComenzarEmpieza gratis

BOW con n-grams y tamaño del vocabulario

En este ejercicio volverás a practicar cómo construir una bolsa de palabras utilizando el conjunto de datos reviews de reseñas de productos de Amazon. Tu tarea principal será limitar el tamaño del vocabulario y especificar la longitud de la secuencia de tokens.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

  • Importa el vectorizador desde sklearn.
  • Construye el vectorizador y asegúrate de especificar estos parámetros: el tamaño del vocabulario debe limitarse a 1000, incluir solo bigramas e ignorar términos que aparezcan en más de 500 documentos.
  • Ajusta el vectorizador a la columna review.
  • Crea un DataFrame a partir de la representación BOW.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())
Editar y ejecutar código