Analyser la dimensionnalité et le prétraitement
Dans cet exercice, un lem_corpus vous est fourni : il contient les versions prétraitées des slogans de films de l’exercice précédent. Autrement dit, les slogans ont été mis en minuscules, lemmatisés, et les stop words ont été supprimés.
Votre objectif est de générer la représentation sac de mots bow_lem_matrix pour ces slogans lemmatisés et de comparer sa forme à celle de bow_matrix obtenue dans l’exercice précédent. Les cinq premiers slogans lemmatisés de lem_corpus ont été affichés dans la console pour que vous puissiez les examiner.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Importez la classe
CountVectorizerdepuissklearn. - Instanciez un objet
CountVectorizer. Nommez-levectorizer. - À l’aide de
fit_transform(), générezbow_lem_matrixpourlem_corpus.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)