TfidfVectorizer para classificação de texto
Semelhante ao CountVectorizer
esparso criado no exercício anterior, você trabalhará na criação de vetores tf-idf para seus documentos. Você configurará um TfidfVectorizer
e investigará alguns de seus recursos.
Neste exercício, você usará pandas
e sklearn
juntamente com os mesmos X_train
, y_train
e X_test
, y_test
DataFrames e Series que criou no último exercício.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções de exercício
- Importar
TfidfVectorizer
desklearn.feature_extraction.text
. - Crie um objeto
TfidfVectorizer
chamadotfidf_vectorizer
. Ao fazer isso, especifique os argumentos de palavra-chavestop_words="english"
emax_df=0.7
. - Ajuste e transforme os dados de treinamento.
- Transforme os dados de teste.
- Imprima os 10 primeiros recursos do site
tfidf_vectorizer
. - Imprima os primeiros 5 vetores dos dados de treinamento tfidf usando o fatiamento no
.A
(ou matriz) atributo detfidf_train
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])