Matriz de similaridade do cosseno de um corpus
Neste exercício, você recebeu um corpus, que é uma lista contendo cinco frases. O corpus é exibido no console. Você deve calcular a matriz de similaridade do cosseno, que contém a pontuação de similaridade do cosseno par a par para cada par de frases (vetorizadas usando tf-idf).
Lembre-se: o valor correspondente à i-ésima linha e à j-ésima coluna de uma matriz de similaridade indica a pontuação de similaridade para os vetores i e j.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Inicialize uma instância de
TfidfVectorizer. Dê a ela o nometfidf_vectorizer. - Usando
fit_transform(), gere os vetores tf-idf paracorpus. Dê a eles o nometfidf_matrix. - Use
cosine_similarity()e passetfidf_matrixpara calcular a matriz de similaridade do cossenocosine_sim.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)