CommencerCommencer gratuitement

TfidfVectorizer pour la classification de textes

De la même manière que pour le site CountVectorizer créé dans l'exercice précédent, vous allez travailler à la création de vecteurs tf-idf pour vos documents. Vous allez configurer un site TfidfVectorizer et étudier certaines de ses fonctions.

Dans cet exercice, vous utiliserez pandas et sklearn avec les mêmes X_train, y_train et X_test, y_test DataFrame et Series que vous avez créés dans l'exercice précédent.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Instructions

  • Importez TfidfVectorizer à partir de sklearn.feature_extraction.text.
  • Créez un objet TfidfVectorizer appelé tfidf_vectorizer. Pour ce faire, spécifiez les arguments de mots-clés stop_words="english" et max_df=0.7.
  • Ajustez et transformez les données d'apprentissage.
  • Transformez les données d'essai.
  • Imprimez les 10 premières caractéristiques de tfidf_vectorizer.
  • Imprimez les 5 premiers vecteurs des données d'entraînement tfidf en utilisant le découpage en tranches sur .A (ou tableau). de de tfidf_train.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])
Modifier et exécuter le code