Kelime gömme vektörlerini görselleştirme ve karşılaştırma
Kelime gömme vektörleri yüksek boyutludur, bu da onları doğrudan yorumlamayı zorlaştırır. Bu egzersizde, birkaç kelime vektörünü Temel Bileşen Analizi (PCA) ile 2B'ye indirip görselleştireceksin. Bu, gömme uzayında sözcükler arasındaki anlamsal gruplaşmaları veya benzerlikleri ortaya çıkarmaya yardımcı olur. Ardından iki modelin gömme temsillerini karşılaştıracaksın: değişken model_glove_wiki üzerinden erişilebilen glove-wiki-gigaword-50 ve model_glove_twitter üzerinden erişilebilen glove-twitter-25.
Bu egzersiz, kursun bir parçasıdır
Python ile Natural Language Processing (NLP)
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]
# Extract word embeddings
word_vectors = [____[____] for word in words]
# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()