Vecteurs BoW pour des critiques de films

Dans cet exercice, deux objets pandas Series, X_train et X_test, vous sont fournis ; ils contiennent des critiques de films. Ils représentent respectivement les données d’entraînement et de test. Votre tâche est de prétraiter les critiques et de générer des vecteurs BoW pour ces deux ensembles à l’aide de CountVectorizer.

Une fois les matrices de vecteurs BoW X_train_bow et X_test_bow générées, nous serons en excellente position pour y appliquer un modèle de Machine Learning et mener une analyse de sentiment.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

Importez CountVectorizer depuis la bibliothèque sklearn.
Instanciez un objet CountVectorizer nommé vectorizer. Assurez-vous que tous les mots sont convertis en minuscules et que les stopwords english sont supprimés.
En utilisant X_train, ajustez vectorizer, puis utilisez-le pour transformer X_train afin de générer l’ensemble de vecteurs BoW X_train_bow.
Transformez X_test avec vectorizer pour générer l’ensemble de vecteurs BoW X_test_bow.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)

Modifier et exécuter le code