Modèle BoW pour des slogans de films
Dans cet exercice, un corpus de plus de 7000 slogans (taglines) de films vous est fourni. Votre tâche est de générer la représentation sac de mots bow_matrix pour ces slogans. Pour cet exercice, nous ignorerons l’étape de prétraitement du texte et générerons directement bow_matrix.
Nous examinerons également la forme (shape) de la bow_matrix obtenue. Les cinq premiers slogans de corpus ont été affichés dans la console pour que vous puissiez les consulter.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Importez la classe
CountVectorizerdepuissklearn. - Instanciez un objet
CountVectorizer. Nommez-levectorizer. - En utilisant
fit_transform(), générezbow_matrixpourcorpus.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)