MulaiMulai sekarang secara gratis

Memvisualisasikan dan membandingkan word embedding

Word embedding berdimensi tinggi sehingga sulit diinterpretasikan secara langsung. Dalam latihan ini, Anda akan memproyeksikan beberapa vektor kata ke 2D menggunakan Principal Component Analysis (PCA) dan memvisualisasikannya. Ini membantu menyingkap pengelompokan semantik atau kemiripan antar kata dalam ruang embedding. Selanjutnya, Anda akan membandingkan representasi embedding dari dua model: glove-wiki-gigaword-50 yang tersedia melalui variabel model_glove_wiki, dan glove-twitter-25 yang tersedia melalui model_glove_twitter.

Latihan ini adalah bagian dari kursus

Natural Language Processing (NLP) in Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()
Edit dan Jalankan Kode