TfidfVectorizer para classificação de texto
Semelhante ao CountVectorizer esparso criado no exercício anterior, você trabalhará na criação de vetores tf-idf para seus documentos. Você configurará um TfidfVectorizer e investigará alguns de seus recursos.
Neste exercício, você usará pandas e sklearn juntamente com os mesmos X_train, y_train e X_test, y_test DataFrames e Series que criou no último exercício.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
- Importar
TfidfVectorizerdesklearn.feature_extraction.text. - Crie um objeto
TfidfVectorizerchamadotfidf_vectorizer. Ao fazer isso, especifique os argumentos de palavra-chavestop_words="english"emax_df=0.7. - Ajuste e transforme os dados de treinamento.
- Transforme os dados de teste.
- Imprima os 10 primeiros recursos do site
tfidf_vectorizer. - Imprima os primeiros 5 vetores dos dados de treinamento tfidf usando o fatiamento no
.A(ou matriz) atributo detfidf_train.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])