Étape 2 : Construire un vectorizer

Dans cet exercice, vous devez créer une transformation TfIDf de la colonne review du jeu de données reviews. Vous devez spécifier les n-grams, les stop words, le motif des tokens et la taille du vocabulaire comme arguments.

C’est la dernière étape avant d’entraîner un classifieur pour prédire le sentiment d’un avis.

Veillez à bien fixer le nombre maximal de variables, car un vocabulaire trop grand pourrait interrompre votre session.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Importez le Tfidf vectorizer et la liste par défaut des stop words en anglais.
Créez le Tfidf vectorizer en précisant — dans cet ordre — les arguments suivants : utilisez comme stop words la liste par défaut des stop words en anglais ; comme n-grams, utilisez les uni- et bi-grams ; le nombre maximal de caractéristiques doit être de 200 ; ne capturer que des mots à l’aide du motif spécifié.
Créez un DataFrame à partir du Tfidf vectorizer.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____

# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)

# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())

Modifier et exécuter le code