Word2Vec
Bu egzersizde Keras kullanarak bir Word2Vec modeli oluşturacaksın.
Modeli önceden eğitmek için kullanılan derlem, The Big Bang Theory dizisinin tüm bölümlerinin senaryosudur ve cümle cümle bölünmüştür. bigbang değişkeninde hazır.
Derlemdeki metinler küçük harfe dönüştürüldü ve tüm sözcükler ayrıştırıldı (tokenize edildi). Sonuç tokenized_corpus değişkeninde saklandı.
Bir Word2Vec modeli, bağlam penceresi 10 kelime olacak şekilde (merkez kelimenin 5 öncesi ve 5 sonrası), 3'ten az geçen kelimeler çıkarılarak ve 50 boyutlu skip-gram yöntemi kullanılarak önceden eğitildi. Model bigbang_word2vec.model dosyasına kaydedildi.
Word2Vec sınıfı, gensim.models.word2vec içinden ortama zaten yüklendi.
Bu egzersiz
Keras ile Dil Modellemesi için Yinelenen Sinir Ağları (RNN)
kursunun bir parçasıdırEgzersiz talimatları
- Önceden eğitilmiş Word2Vec modelini yükle.
"bazinga", "penny", "universe", "spock", "brain"kelimelerini aynı sırayla içeren birlistoluşturupwords_of_interestdeğişkenine ata.- Her bir ilgi çekici kelime için
wvözniteliğindeki.most_similar()metodunu kullanarak ilk 5 benzer kelimeyi sözlük olaraktop5_similar_wordslistesine ekle. - İlgi çekici her kelime için bulunan ilk 5 kelimeyi yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Word2Vec model
w2v_model = Word2Vec.load(____)
# Selected words to check similarities
words_of_interest = ____
# Compute top 5 similar words for each of the words of interest
top5_similar_words = []
for word in words_of_interest:
top5_similar_words.append(
{word: [item[0] for item in w2v_model.wv.____([word], topn=5)]}
)
# Print the similar words
____