Kelime gömme vektörlerini görselleştirme ve karşılaştırma
Kelime gömme vektörleri yüksek boyutludur, bu da onları doğrudan yorumlamayı zorlaştırır. Bu egzersizde, birkaç kelime vektörünü Temel Bileşen Analizi (PCA) ile 2B'ye indirip görselleştireceksin. Bu, gömme uzayında sözcükler arasındaki anlamsal gruplaşmaları veya benzerlikleri ortaya çıkarmaya yardımcı olur. Ardından iki modelin gömme temsillerini karşılaştıracaksın: değişken model_glove_wiki üzerinden erişilebilen glove-wiki-gigaword-50 ve model_glove_twitter üzerinden erişilebilen glove-twitter-25.
Bu egzersiz
Python ile Natural Language Processing (NLP)
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]
# Extract word embeddings
word_vectors = [____[____] for word in words]
# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()