Mesurer la similarité des vecteurs de mots

Dans cette leçon, nous allons découvrir la puissance des vecteurs de mots à l'aide de vecteurs de mots formés à partir de données réelles. Il s'agit de vecteurs de mots extraits d'une liste de vecteurs de mots publiée par le groupe Stanford NLP. Un vecteur de mots est une séquence ou un vecteur de valeurs numériques. Par exemple, dog = (0.31, 0.92, 0.13)

La distance entre les vecteurs de mots peut être mesurée à l'aide d'une métrique de similarité par paires. Nous utiliserons ici sklearn.metrics.pairwise.cosine_similarity. La similarité cosinus produit des valeurs plus élevées lorsque la similarité élément par élément de deux vecteurs est élevée, et inversement.

Cet exercice fait partie du cours

<cours>Traduction automatique avec Keras</cours>

Voir le cours

Instructions de l’exercice

Imprimez la longueur de l'cat_vector e à l'aide de l'attribut ndarray.size.
Veuillez calculer et imprimer la similarité entre cat_vector et window_vector à l'aide de cosine_similarity.
Veuillez calculer et imprimer la similarité entre cat_vector et dog_vector à l'aide de cosine_similarity.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.metrics.pairwise import cosine_similarity

# Print the length of the cat_vector
print('Length of the cat_vector: ', ____.____)

# Compute and print the similarity between cat and window vectors
dist_cat_window = ____(____, window_vector)
print('Similarity(cat, window): ', ____)

# Compute and print the similarity between cat and dog vectors
print('Similarity(cat,dog): ', ____(____, ____))

Modifier et exécuter le code