LoslegenKostenlos loslegen

Wort-Embeddings visualisieren und vergleichen

Wort-Embeddings sind hochdimensional und daher schwer direkt zu interpretieren. In dieser Übung projizierst du einige Wortvektoren mit der Hauptkomponentenanalyse (PCA) in 2D und visualisierst sie. So lassen sich semantische Gruppierungen oder Ähnlichkeiten zwischen Wörtern im Embedding-Raum erkennen. Anschließend vergleichst du die Embedding-Darstellungen zweier Modelle: glove-wiki-gigaword-50, verfügbar über die Variable model_glove_wiki,, und glove-twitter-25, verfügbar über model_glove_twitter.

Diese Übung ist Teil des Kurses

Natural Language Processing (NLP) in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()
Code bearbeiten und ausführen