CommencerCommencer gratuitement

TfidfVectorizer pour la classification de texte

Comme pour le CountVectorizer creux (sparse) créé dans l’exercice précédent, vous allez construire des vecteurs tf-idf pour vos documents. Vous allez configurer un TfidfVectorizer et examiner certaines de ses fonctionnalités.

Dans cet exercice, vous utiliserez pandas et sklearn ainsi que les mêmes DataFrames et Series X_train, y_train et X_test, y_test que vous avez créés dans l’exercice précédent.

Cet exercice fait partie du cours

Introduction au Natural Language Processing (NLP) en Python

Afficher le cours

Instructions

  • Importez TfidfVectorizer depuis sklearn.feature_extraction.text.
  • Créez un objet TfidfVectorizer nommé tfidf_vectorizer. Lors de la création, indiquez les arguments nommés stop_words="english" et max_df=0.7.
  • Ajustez et transformez les données d’entraînement.
  • Transformez les données de test.
  • Affichez les 10 premières variables (features) de tfidf_vectorizer.
  • Affichez les 5 premiers vecteurs des données d’entraînement tf-idf en utilisant un slicing sur l’attribut .A (ou array) de tfidf_train.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])
Modifier et exécuter le code