LoslegenKostenlos starten

Wort-Embeddings visualisieren und vergleichen

Wort-Embeddings sind hochdimensional und daher schwer direkt zu interpretieren. In dieser Übung projizierst du einige Wortvektoren mit der Hauptkomponentenanalyse (PCA) in 2D und visualisierst sie. So lassen sich semantische Gruppierungen oder Ähnlichkeiten zwischen Wörtern im Embedding-Raum erkennen. Anschließend vergleichst du die Embedding-Darstellungen zweier Modelle: glove-wiki-gigaword-50, verfügbar über die Variable model_glove_wiki,, und glove-twitter-25, verfügbar über model_glove_twitter.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()
Code bearbeiten und ausführen