CommencerCommencer gratuitement

Visualisation et comparaison d'enchevêtrements de mots

Les plongements lexicaux sont de grande dimension, ce qui les rend difficiles à interpréter directement. Dans cet exercice, vous allez projeter quelques vecteurs de mots en 2D à l'aide de l'analyse en composantes principales (ACP) et les visualiser. Cela permet de mettre en évidence des regroupements sémantiques ou des similitudes entre les mots dans l'espace d'intégration. Ensuite, vous comparerez les représentations d'intégration de deux modèles : glove-wiki-gigaword-50 disponible via la variable model_glove_wiki, et glove-twitter-25 disponible via model_glove_twitter.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()
Modifier et exécuter le code