LoslegenKostenlos loslegen

Visualisierung und Vergleich von Wort-Embeddings

Wort-Embeddings sind hochdimensional, was ihre direkte Interpretation erschwert. In dieser Übung projizierst du ein paar Wortvektoren mithilfe der Hauptkomponentenanalyse (PCA) auf 2D und machst sie sichtbar. Das hilft dabei, semantische Gruppierungen oder Ähnlichkeiten zwischen Wörtern im Einbettungsraum zu erkennen. Dann vergleichst du die Einbettungsdarstellungen zweier Modelle: „ glove-wiki-gigaword-50 ”, verfügbar über die Variable „ model_glove_wiki, ”, und „ glove-twitter-25 ”, verfügbar über model_glove_twitter.

Diese Übung ist Teil des Kurses

Natürliche Sprachverarbeitung (NLP) in Python

Kurs anzeigen

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()
Code bearbeiten und ausführen