Vectores BoW para reseñas de películas
En este ejercicio tienes dos Series de pandas, X_train y X_test, que contienen reseñas de películas. Representan los datos de entrenamiento y de prueba, respectivamente. Tu tarea es preprocesar las reseñas y generar vectores BoW para estos dos conjuntos usando CountVectorizer.
Una vez que hayamos generado las matrices de vectores BoW X_train_bow y X_test_bow, estaremos en muy buena posición para aplicar un modelo de Machine Learning y realizar análisis de sentimiento.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Importa
CountVectorizerde la bibliotecasklearn. - Instancia un objeto
CountVectorizerllamadovectorizer. Asegúrate de que todas las palabras se conviertan a minúsculas y se eliminen las stopwords enenglish. - Usando
X_train, ajustavectorizery luego úsalo para transformarX_trainy generar el conjunto de vectores BoWX_train_bow. - Transforma
X_testusandovectorizerpara generar el conjunto de vectores BoWX_test_bow.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)
# Fit and transform X_train
X_train_bow = vectorizer.____(____)
# Transform X_test
X_test_bow = vectorizer.____(____)
# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)