CommencerCommencer gratuitement

Étape 2 : Construire un vectorizer

Dans cet exercice, vous devez créer une transformation TfIDf de la colonne review du jeu de données reviews. Vous devez spécifier les n-grams, les stop words, le motif des tokens et la taille du vocabulaire comme arguments.

C’est la dernière étape avant d’entraîner un classifieur pour prédire le sentiment d’un avis.

Veillez à bien fixer le nombre maximal de variables, car un vocabulaire trop grand pourrait interrompre votre session.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

  • Importez le Tfidf vectorizer et la liste par défaut des stop words en anglais.
  • Créez le Tfidf vectorizer en précisant — dans cet ordre — les arguments suivants : utilisez comme stop words la liste par défaut des stop words en anglais ; comme n-grams, utilisez les uni- et bi-grams ; le nombre maximal de caractéristiques doit être de 200 ; ne capturer que des mots à l’aide du motif spécifié.
  • Créez un DataFrame à partir du Tfidf vectorizer.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____

# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)

# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())
Modifier et exécuter le code