TfidfVectorizer para classificação de texto

Semelhante ao CountVectorizer esparso criado no exercício anterior, você trabalhará na criação de vetores tf-idf para seus documentos. Você configurará um TfidfVectorizer e investigará alguns de seus recursos.

Neste exercício, você usará pandas e sklearn juntamente com os mesmos X_train, y_train e X_test, y_test DataFrames e Series que criou no último exercício.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver Curso

Instruções de exercício

  • Importar TfidfVectorizer de sklearn.feature_extraction.text.
  • Crie um objeto TfidfVectorizer chamado tfidf_vectorizer. Ao fazer isso, especifique os argumentos de palavra-chave stop_words="english" e max_df=0.7.
  • Ajuste e transforme os dados de treinamento.
  • Transforme os dados de teste.
  • Imprima os 10 primeiros recursos do site tfidf_vectorizer.
  • Imprima os primeiros 5 vetores dos dados de treinamento tfidf usando o fatiamento no .A (ou matriz) atributo de tfidf_train.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])