TfidfVectorizer per la classificazione del testo
In modo analogo al CountVectorizer sparso creato nell'esercizio precedente, lavorerai sulla creazione di vettori tf-idf per i tuoi documenti. Imposterai un TfidfVectorizer ed esplorerai alcune delle sue funzionalità.
In questo esercizio userai pandas e sklearn insieme agli stessi DataFrame e Series X_train, y_train e X_test, y_test che hai creato nell'esercizio precedente.
Questo esercizio fa parte del corso
Introduzione al Natural Language Processing in Python
Istruzioni dell'esercizio
- Importa
TfidfVectorizerdasklearn.feature_extraction.text. - Crea un oggetto
TfidfVectorizerchiamatotfidf_vectorizer. Quando lo fai, specifica gli argomenti keywordstop_words="english"emax_df=0.7. - Esegui il fit e la trasformazione dei dati di training.
- Trasforma i dati di test.
- Stampa le prime 10 feature di
tfidf_vectorizer. - Stampa i primi 5 vettori dei dati di training tfidf usando lo slicing sull'attributo
.A(o array) ditfidf_train.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])