ComeçarComece de graça

TfidfVectorizer para classificação de texto

Semelhante ao CountVectorizer esparso criado no exercício anterior, você vai criar vetores tf-idf para seus documentos. Você vai configurar um TfidfVectorizer e investigar alguns de seus recursos.

Neste exercício, você usará pandas e sklearn junto com os mesmos DataFrames e Series X_train, y_train e X_test, y_test que você criou no último exercício.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Instruções do exercício

  • Importe TfidfVectorizer de sklearn.feature_extraction.text.
  • Crie um objeto TfidfVectorizer chamado tfidf_vectorizer. Ao fazer isso, especifique os argumentos nomeados stop_words="english" e max_df=0.7.
  • Faça o fit e transforme os dados de treino.
  • Transforme os dados de teste.
  • Imprima as 10 primeiras features de tfidf_vectorizer.
  • Imprima os 5 primeiros vetores dos dados de treino tf-idf usando fatiamento no atributo .A (ou array) de tfidf_train.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])
Editar e executar o código