Kelime vektörlerinin izdüşümü
Sözlükteki kelimelerin nasıl gruplandığını görmek için kelime vektörlerini bir dağılım grafiğinde görselleştirebilirsin. Kelime vektörlerini görselleştirmek için onları iki boyutlu bir uzaya yansıtman gerekir. Bunu, Temel Bileşen Analizi (PCA) ile iki temel bileşeni çıkararak yapabilirsin.
Bu egzersizde, sklearn içindeki PCA kütüphanesini kullanarak kelime vektörlerini nasıl çıkaracağını ve iki boyutlu uzaya nasıl yansıtacağını pratik edeceksin.
words listesinde saklanan kısa bir kelime listesi ve en_core_web_md modeli kullanımına hazır. Model nlp olarak yüklendi. Gerekli tüm kütüphane ve paketler senin için içe aktarıldı (PCA, numpy np olarak).
Bu egzersiz
spaCy ile Natural Language Processing
kursunun bir parçasıdırEgzersiz talimatları
- Verilen kelimelerin kimliklerini çıkar ve
word_idslistesinde sakla. - Kelimelerin kelime vektörlerinin ilk beş elemanını çıkar ve ardından
np.vstack()kullanarak bunları dikey olarakword_vectorsiçinde birleştir. - Verilmiş bir
pcanesnesiyle,pcasınıfının.fit_transform()fonksiyonunu kullanarak dönüştürülmüş kelime vektörlerini hesapla. - Dönüştürülmüş kelime vektörlerinin birinci bileşenini
[:, 0]indekslemeyle yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
words = ["tiger", "bird"]
# Extract word IDs of given words
word_ids = [nlp.____.____[w] for w in words]
# Extract word vectors and stack the first five elements vertically
word_vectors = np.vstack([nlp.____.____[i][:5] for i in word_ids])
# Calculate the transformed word vectors using the pca object
pca = PCA(n_components=2)
word_vectors_transformed = pca.____(____)
# Print the first component of the transformed word vectors
print(____[:, 0])