Visualisation et comparaison d'enchevêtrements de mots
Les plongements lexicaux sont de grande dimension, ce qui les rend difficiles à interpréter directement. Dans cet exercice, vous allez projeter quelques vecteurs de mots en 2D à l'aide de l'analyse en composantes principales (ACP) et les visualiser. Cela permet de mettre en évidence des regroupements sémantiques ou des similitudes entre les mots dans l'espace d'intégration. Ensuite, vous comparerez les représentations d'intégration de deux modèles : glove-wiki-gigaword-50
disponible via la variable model_glove_wiki,
et glove-twitter-25
disponible via model_glove_twitter.
Cet exercice fait partie du cours
Traitement du langage naturel (NLP) en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]
# Extract word embeddings
word_vectors = [____[____] for word in words]
# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()