Memvisualisasikan dan membandingkan word embedding
Word embedding berdimensi tinggi sehingga sulit diinterpretasikan secara langsung. Dalam latihan ini, Anda akan memproyeksikan beberapa vektor kata ke 2D menggunakan Principal Component Analysis (PCA) dan memvisualisasikannya. Ini membantu menyingkap pengelompokan semantik atau kemiripan antar kata dalam ruang embedding. Selanjutnya, Anda akan membandingkan representasi embedding dari dua model: glove-wiki-gigaword-50 yang tersedia melalui variabel model_glove_wiki, dan glove-twitter-25 yang tersedia melalui model_glove_twitter.
Latihan ini adalah bagian dari kursus
Natural Language Processing (NLP) in Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]
# Extract word embeddings
word_vectors = [____[____] for word in words]
# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()