ComenzarEmpieza gratis

Vectores BoW para reseñas de películas

En este ejercicio tienes dos Series de pandas, X_train y X_test, que contienen reseñas de películas. Representan los datos de entrenamiento y de prueba, respectivamente. Tu tarea es preprocesar las reseñas y generar vectores BoW para estos dos conjuntos usando CountVectorizer.

Una vez que hayamos generado las matrices de vectores BoW X_train_bow y X_test_bow, estaremos en muy buena posición para aplicar un modelo de Machine Learning y realizar análisis de sentimiento.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

  • Importa CountVectorizer de la biblioteca sklearn.
  • Instancia un objeto CountVectorizer llamado vectorizer. Asegúrate de que todas las palabras se conviertan a minúsculas y se eliminen las stopwords en english.
  • Usando X_train, ajusta vectorizer y luego úsalo para transformar X_train y generar el conjunto de vectores BoW X_train_bow.
  • Transforma X_test usando vectorizer para generar el conjunto de vectores BoW X_test_bow.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)
Editar y ejecutar código