BOW con reseñas de productos
Ya has practicado un BOW con un conjunto de datos pequeño. Ahora lo aplicarás a una muestra de reseñas de productos de Amazon. Los datos se han importado por ti y se llaman reviews. Contienen dos columnas. La primera se llama score y vale 0 cuando la reseña es negativa y 1 cuando es positiva. La segunda columna se llama review y contiene el texto de la reseña escrita por un cliente. Si quieres, explora los datos en la IPython Shell.
Tu tarea es construir un vocabulario BOW usando la columna review.
Recuerda que podemos llamar al método .get_feature_names() del vectorizador para obtener una lista de todos los elementos del vocabulario.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Crea un objeto CountVectorizer, especificando el número máximo de características.
- Ajusta (fit) el vectorizador.
- Transforma el vectorizador ajustado.
- Crea un DataFrame donde transformes la matriz dispersa en un array denso y asegúrate de especificar correctamente los nombres de las columnas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify max features
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())