TfidfVectorizer pour la classification de texte

Comme pour le CountVectorizer creux (sparse) créé dans l’exercice précédent, vous allez construire des vecteurs tf-idf pour vos documents. Vous allez configurer un TfidfVectorizer et examiner certaines de ses fonctionnalités.

Dans cet exercice, vous utiliserez pandas et sklearn ainsi que les mêmes DataFrames et Series X_train, y_train et X_test, y_test que vous avez créés dans l’exercice précédent.

Cet exercice fait partie du cours

<cours>Introduction au Natural Language Processing (NLP) en Python</cours>

Voir le cours

Instructions de l’exercice

Importez TfidfVectorizer depuis sklearn.feature_extraction.text.
Créez un objet TfidfVectorizer nommé tfidf_vectorizer. Lors de la création, indiquez les arguments nommés stop_words="english" et max_df=0.7.
Ajustez et transformez les données d’entraînement.
Transformez les données de test.
Affichez les 10 premières variables (features) de tfidf_vectorizer.
Affichez les 5 premiers vecteurs des données d’entraînement tf-idf en utilisant un slicing sur l’attribut .A (ou array) de tfidf_train.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])

Modifier et exécuter le code