TfidfVectorizer pour la classification de texte
Comme pour le CountVectorizer creux (sparse) créé dans l’exercice précédent, vous allez construire des vecteurs tf-idf pour vos documents. Vous allez configurer un TfidfVectorizer et examiner certaines de ses fonctionnalités.
Dans cet exercice, vous utiliserez pandas et sklearn ainsi que les mêmes DataFrames et Series X_train, y_train et X_test, y_test que vous avez créés dans l’exercice précédent.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Instructions
- Importez
TfidfVectorizerdepuissklearn.feature_extraction.text. - Créez un objet
TfidfVectorizernommétfidf_vectorizer. Lors de la création, indiquez les arguments nommésstop_words="english"etmax_df=0.7. - Ajustez et transformez les données d’entraînement.
- Transformez les données de test.
- Affichez les 10 premières variables (features) de
tfidf_vectorizer. - Affichez les 5 premiers vecteurs des données d’entraînement tf-idf en utilisant un slicing sur l’attribut
.A(ou array) detfidf_train.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])