Vectores BoW para reseñas de películas

En este ejercicio tienes dos Series de pandas, X_train y X_test, que contienen reseñas de películas. Representan los datos de entrenamiento y de prueba, respectivamente. Tu tarea es preprocesar las reseñas y generar vectores BoW para estos dos conjuntos usando CountVectorizer.

Una vez que hayamos generado las matrices de vectores BoW X_train_bow y X_test_bow, estaremos en muy buena posición para aplicar un modelo de Machine Learning y realizar análisis de sentimiento.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

Importa CountVectorizer de la biblioteca sklearn.
Instancia un objeto CountVectorizer llamado vectorizer. Asegúrate de que todas las palabras se conviertan a minúsculas y se eliminen las stopwords en english.
Usando X_train, ajusta vectorizer y luego úsalo para transformar X_train y generar el conjunto de vectores BoW X_train_bow.
Transforma X_test usando vectorizer para generar el conjunto de vectores BoW X_test_bow.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)

Editar y ejecutar código