ComeçarComece de graça

Matriz de similaridade do cosseno de um corpus

Neste exercício, você recebeu um corpus, que é uma lista contendo cinco frases. O corpus é exibido no console. Você deve calcular a matriz de similaridade do cosseno, que contém a pontuação de similaridade do cosseno par a par para cada par de frases (vetorizadas usando tf-idf).

Lembre-se: o valor correspondente à i-ésima linha e à j-ésima coluna de uma matriz de similaridade indica a pontuação de similaridade para os vetores i e j.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

  • Inicialize uma instância de TfidfVectorizer. Dê a ela o nome tfidf_vectorizer.
  • Usando fit_transform(), gere os vetores tf-idf para corpus. Dê a eles o nome tfidf_matrix.
  • Use cosine_similarity() e passe tfidf_matrix para calcular a matriz de similaridade do cosseno cosine_sim.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____

# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)

# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)
Editar e executar o código