ComeçarComece de graça

Vetores tf-idf para TED Talks

Neste exercício, você recebeu um corpus ted que contém as transcrições de 500 TED Talks. Sua tarefa é gerar os vetores tf-idf dessas palestras.

Em uma lição posterior, vamos usar esses vetores para gerar recomendações de palestras semelhantes com base na transcrição.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

  • Importe TfidfVectorizer de sklearn.
  • Crie um objeto TfidfVectorizer. Dê a ele o nome vectorizer.
  • Gere tfidf_matrix para ted usando o método fit_transform().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import TfidfVectorizer
from ____ import ____

# Create TfidfVectorizer object
____

# Generate matrix of word vectors
tfidf_matrix = vectorizer.____(____)

# Print the shape of tfidf_matrix
print(tfidf_matrix.shape)
Editar e executar o código