Trier par similarité
Maintenant que vous avez créé les embeddings de toutes vos fonctionnalités, l’étape suivante consiste à calculer les similarités. Dans cet exercice, vous allez définir une fonction find_n_closest() qui calcule les distances cosinus entre un vecteur de requête et une liste d’embeddings, puis renvoie les n plus petites distances et leurs index.
Dans l’exercice suivant, vous utiliserez cette fonction pour activer votre application de recherche sémantique de produits.
distance a été importé depuis scipy.spatial.
Cet exercice fait partie du cours
Introduction aux embeddings avec l’API OpenAI
Instructions
- Calculez la distance cosinus entre
query_vectoretembedding. - Ajoutez à la liste
distancesun dictionnaire contenantdistet sonindex. - Triez la liste
distancesselon la clé'distance'de chaque dictionnaire. - Renvoyez les
npremiers éléments dedistances_sorted.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def find_n_closest(query_vector, embeddings, n=3):
distances = []
for index, embedding in enumerate(embeddings):
# Calculate the cosine distance between the query vector and embedding
dist = ____
# Append the distance and index to distances
distances.append({"distance": ____, "index": ____})
# Sort distances by the distance key
distances_sorted = ____
# Return the first n elements in distances_sorted
return ____