CommencerCommencer gratuitement

Modèle BoW pour des slogans de films

Dans cet exercice, un corpus de plus de 7000 slogans (taglines) de films vous est fourni. Votre tâche est de générer la représentation sac de mots bow_matrix pour ces slogans. Pour cet exercice, nous ignorerons l’étape de prétraitement du texte et générerons directement bow_matrix.

Nous examinerons également la forme (shape) de la bow_matrix obtenue. Les cinq premiers slogans de corpus ont été affichés dans la console pour que vous puissiez les consulter.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

  • Importez la classe CountVectorizer depuis sklearn.
  • Instanciez un objet CountVectorizer. Nommez-le vectorizer.
  • En utilisant fit_transform(), générez bow_matrix pour corpus.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Print the shape of bow_matrix
print(bow_matrix.shape)
Modifier et exécuter le code