Word2Vec

V tomto cvičení vytvoříš model Word2Vec pomocí Keras.

Korpus použitý k předtrénování modelu tvoří scénáře všech epizod seriálu Teorie velkého třesku, rozdělené po jednotlivých větách. Je dostupný v proměnné bigbang.

Text v korpusu byl převeden na malá písmena a všechna slova byla tokenizována. Výsledek je uložen v proměnné tokenized_corpus.

Model Word2Vec byl předtrénován s velikostí kontextového okna 10 slov (5 před středovým slovem a 5 za ním), slova s méně než 3 výskyty byla odstraněna a jako metoda byl použit model skip-gram s 50 dimenzemi. Model je uložen v souboru bigbang_word2vec.model.

Třída Word2Vec je v prostředí již načtena z gensim.models.word2vec.

Načti předtrénovaný model Word2Vec.
Ulož do proměnné words_of_interest seznam list se slovy "bazinga", "penny", "universe", "spock", "brain" — zachovej je v tomto pořadí.
Iteruj přes každé slovo ze seznamu, použij metodu .most_similar() dostupnou na atributu wv a přidej 5 nejpodobnějších slov do top5_similar_words jako slovník.
Vypiš nalezených 5 nejpodobnějších slov pro každé slovo ze seznamu.

道练习

Word2Vec

说明

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}道练习

说明

道练习