TfidfVectorizer per la classificazione del testo

In modo analogo al CountVectorizer sparso creato nell'esercizio precedente, lavorerai sulla creazione di vettori tf-idf per i tuoi documenti. Imposterai un TfidfVectorizer ed esplorerai alcune delle sue funzionalità.

In questo esercizio userai pandas e sklearn insieme agli stessi DataFrame e Series X_train, y_train e X_test, y_test che hai creato nell'esercizio precedente.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza corso

Istruzioni dell'esercizio

Importa TfidfVectorizer da sklearn.feature_extraction.text.
Crea un oggetto TfidfVectorizer chiamato tfidf_vectorizer. Quando lo fai, specifica gli argomenti keyword stop_words="english" e max_df=0.7.
Esegui il fit e la trasformazione dei dati di training.
Trasforma i dati di test.
Stampa le prime 10 feature di tfidf_vectorizer.
Stampa i primi 5 vettori dei dati di training tfidf usando lo slicing sull'attributo .A (o array) di tfidf_train.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])

Modifica ed esegui il codice