TfidfVectorizer para classificação de texto
Semelhante ao CountVectorizer esparso criado no exercício anterior, você vai criar vetores tf-idf para seus documentos. Você vai configurar um TfidfVectorizer e investigar alguns de seus recursos.
Neste exercício, você usará pandas e sklearn junto com os mesmos DataFrames e Series X_train, y_train e X_test, y_test que você criou no último exercício.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
Instruções do exercício
- Importe
TfidfVectorizerdesklearn.feature_extraction.text. - Crie um objeto
TfidfVectorizerchamadotfidf_vectorizer. Ao fazer isso, especifique os argumentos nomeadosstop_words="english"emax_df=0.7. - Faça o fit e transforme os dados de treino.
- Transforme os dados de teste.
- Imprima as 10 primeiras features de
tfidf_vectorizer. - Imprima os 5 primeiros vetores dos dados de treino tf-idf usando fatiamento no atributo
.A(ou array) detfidf_train.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])