Vecteurs BoW pour des critiques de films
Dans cet exercice, deux objets pandas Series, X_train et X_test, vous sont fournis ; ils contiennent des critiques de films. Ils représentent respectivement les données d’entraînement et de test. Votre tâche est de prétraiter les critiques et de générer des vecteurs BoW pour ces deux ensembles à l’aide de CountVectorizer.
Une fois les matrices de vecteurs BoW X_train_bow et X_test_bow générées, nous serons en excellente position pour y appliquer un modèle de Machine Learning et mener une analyse de sentiment.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Importez
CountVectorizerdepuis la bibliothèquesklearn. - Instanciez un objet
CountVectorizernommévectorizer. Assurez-vous que tous les mots sont convertis en minuscules et que les stopwordsenglishsont supprimés. - En utilisant
X_train, ajustezvectorizer, puis utilisez-le pour transformerX_trainafin de générer l’ensemble de vecteurs BoWX_train_bow. - Transformez
X_testavecvectorizerpour générer l’ensemble de vecteurs BoWX_test_bow.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)
# Fit and transform X_train
X_train_bow = vectorizer.____(____)
# Transform X_test
X_test_bow = vectorizer.____(____)
# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)