1. Learn
  2. /
  3. 课程
  4. /
  5. Rekurentní neuronové sítě (RNN) pro jazykové modelování s Keras

Connected

道练习

Word2Vec

V tomto cvičení vytvoříš model Word2Vec pomocí Keras.

Korpus použitý k předtrénování modelu tvoří scénáře všech epizod seriálu Teorie velkého třesku, rozdělené po jednotlivých větách. Je dostupný v proměnné bigbang.

Text v korpusu byl převeden na malá písmena a všechna slova byla tokenizována. Výsledek je uložen v proměnné tokenized_corpus.

Model Word2Vec byl předtrénován s velikostí kontextového okna 10 slov (5 před středovým slovem a 5 za ním), slova s méně než 3 výskyty byla odstraněna a jako metoda byl použit model skip-gram s 50 dimenzemi. Model je uložen v souboru bigbang_word2vec.model.

Třída Word2Vec je v prostředí již načtena z gensim.models.word2vec.

说明

100 XP
  • Načti předtrénovaný model Word2Vec.
  • Ulož do proměnné words_of_interest seznam list se slovy "bazinga", "penny", "universe", "spock", "brain" — zachovej je v tomto pořadí.
  • Iteruj přes každé slovo ze seznamu, použij metodu .most_similar() dostupnou na atributu wv a přidej 5 nejpodobnějších slov do top5_similar_words jako slovník.
  • Vypiš nalezených 5 nejpodobnějších slov pro každé slovo ze seznamu.