Analyser la dimensionnalité et le prétraitement

Dans cet exercice, un lem_corpus vous est fourni : il contient les versions prétraitées des slogans de films de l’exercice précédent. Autrement dit, les slogans ont été mis en minuscules, lemmatisés, et les stop words ont été supprimés.

Votre objectif est de générer la représentation sac de mots bow_lem_matrix pour ces slogans lemmatisés et de comparer sa forme à celle de bow_matrix obtenue dans l’exercice précédent. Les cinq premiers slogans lemmatisés de lem_corpus ont été affichés dans la console pour que vous puissiez les examiner.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

Importez la classe CountVectorizer depuis sklearn.
Instanciez un objet CountVectorizer. Nommez-le vectorizer.
À l’aide de fit_transform(), générez bow_lem_matrix pour lem_corpus.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)

Modifier et exécuter le code