TfidfVectorizer pour la classification de textes
De la même manière que pour le site CountVectorizer
créé dans l'exercice précédent, vous allez travailler à la création de vecteurs tf-idf pour vos documents. Vous allez configurer un site TfidfVectorizer
et étudier certaines de ses fonctions.
Dans cet exercice, vous utiliserez pandas
et sklearn
avec les mêmes X_train
, y_train
et X_test
, y_test
DataFrame et Series que vous avez créés dans l'exercice précédent.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
- Importez
TfidfVectorizer
à partir desklearn.feature_extraction.text
. - Créez un objet
TfidfVectorizer
appelétfidf_vectorizer
. Pour ce faire, spécifiez les arguments de mots-clésstop_words="english"
etmax_df=0.7
. - Ajustez et transformez les données d'apprentissage.
- Transformez les données d'essai.
- Imprimez les 10 premières caractéristiques de
tfidf_vectorizer
. - Imprimez les 5 premiers vecteurs des données d'entraînement tfidf en utilisant le découpage en tranches sur
.A
(ou tableau). de detfidf_train
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])