Taille du vocabulaire des critiques de films

Dans cet exercice, vous allez vous entraîner à différentes façons de limiter la taille du vocabulaire en utilisant un échantillon du jeu de données de critiques movies. La première colonne est review (de type object), et la deuxième colonne est label, avec la valeur 0 pour une critique négative et 1 pour une critique positive.

Les trois méthodes que vous allez utiliser transforment la colonne de texte en nouvelles colonnes numériques, qui capturent le nombre d’occurrences d’un mot ou d’une expression dans chaque critique. Chaque méthode conduira à un nombre différent de nouvelles caractéristiques.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)

# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Modifier et exécuter le code