TfidfVectorizer pour la classification de textes
De la même manière que pour le site CountVectorizer créé dans l'exercice précédent, vous allez travailler à la création de vecteurs tf-idf pour vos documents. Vous allez configurer un site TfidfVectorizer et étudier certaines de ses fonctions.
Dans cet exercice, vous utiliserez pandas et sklearn avec les mêmes X_train, y_train et X_test, y_test DataFrame et Series que vous avez créés dans l'exercice précédent.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
- Importez
TfidfVectorizerà partir desklearn.feature_extraction.text. - Créez un objet
TfidfVectorizerappelétfidf_vectorizer. Pour ce faire, spécifiez les arguments de mots-clésstop_words="english"etmax_df=0.7. - Ajustez et transformez les données d'apprentissage.
- Transformez les données d'essai.
- Imprimez les 10 premières caractéristiques de
tfidf_vectorizer. - Imprimez les 5 premiers vecteurs des données d'entraînement tfidf en utilisant le découpage en tranches sur
.A(ou tableau). de detfidf_train.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])