ComeçarComece de graça

Comparando todos os seus filmes com TF-IDF

Agora que você fez o trabalho pesado de colocar seus dados de TF-IDF em um formato utilizável, é hora de usá-los para encontrar similaridades e gerar recomendações.

Desta vez, como você está usando pontuações de TF-IDF (que são floats, em vez de valores booleanos), você usará a métrica de similaridade do cosseno para encontrar as similaridades entre os itens. Neste exercício, você vai gerar uma matriz com todas as similaridades do cosseno entre os filmes e armazená-la em um DataFrame para facilitar a consulta. Isso permitirá comparar filmes e encontrar recomendações de forma rápida e simples.

O DataFrame tfidf_df que você criou no último exercício, contendo uma linha para cada filme, já foi carregado para você.

Este exercício faz parte do curso

Construindo mecanismos de recomendação em Python

Ver curso

Instruções do exercício

  • Encontre as medidas de similaridade do cosseno entre todos os filmes e atribua os resultados a cosine_similarity_array.
  • Crie um DataFrame a partir de cosine_similarity_array, usando tfidf_summary_df.index como linhas e colunas.
  • Imprima as cinco primeiras linhas do DataFrame e examine as pontuações de similaridade.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____

# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)

# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)

# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())
Editar e executar o código