Étape 2 : Construire un vectorizer
Dans cet exercice, vous devez créer une transformation TfIDf de la colonne review du jeu de données reviews. Vous devez spécifier les n-grams, les stop words, le motif des tokens et la taille du vocabulaire comme arguments.
C’est la dernière étape avant d’entraîner un classifieur pour prédire le sentiment d’un avis.
Veillez à bien fixer le nombre maximal de variables, car un vocabulaire trop grand pourrait interrompre votre session.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez le Tfidf vectorizer et la liste par défaut des stop words en anglais.
- Créez le Tfidf vectorizer en précisant — dans cet ordre — les arguments suivants : utilisez comme stop words la liste par défaut des stop words en anglais ; comme n-grams, utilisez les uni- et bi-grams ; le nombre maximal de caractéristiques doit être de 200 ; ne capturer que des mots à l’aide du motif spécifié.
- Créez un DataFrame à partir du Tfidf vectorizer.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())