LoslegenKostenlos loslegen

Word2Vec

In dieser Übung erstellst du ein Word2Vec-Modell mit Keras.

Das Corpus, das zum Vorabtraining des Modells verwendet wurde, ist das Skript aller Folgen der TV-Serie „The Big Bang Theory“, das Satz für Satz aufgeteilt wurde. Es ist in der Variablen bigbang verfügbar.

Der Text im Korpus wurde in Kleinbuchstaben umgewandelt und alle Wörter wurden in Token zerlegt. Das Ergebnis wird in der Variablen „ tokenized_corpus “ gespeichert.

Ein „ Word2Vec “-Modell wurde mit einer Fenstergröße von 10 Wörtern für den Kontext (5 vor und 5 nach dem mittleren Wort) vortrainiert, Wörter mit weniger als 3 Vorkommen wurden entfernt und die Skip-Gram-Modellmethode wurde mit 50 Dimensionen verwendet. Das Modell wird in der Datei „ bigbang_word2vec.model “ gespeichert.

Die Klasse „ Word2Vec ” ist schon in der Umgebung von „ gensim.models.word2vec ” geladen.

Diese Übung ist Teil des Kurses

Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras

Kurs anzeigen

Anleitung zur Übung

  • Lade das schon trainierte Word2Vec-Modell.
  • Speichere einen „ list ” mit den Wörtern „ "bazinga", "penny", "universe", "spock", "brain" ” in der Variablen „ words_of_interest ” und behalte die Reihenfolge bei.
  • Geh alle Wörter durch, die dich interessieren, und benutze dabei die Methode „ .most_similar() “, die du unter dem Attribut „ wv “ findest. Füge dann die fünf ähnlichsten Wörter als Wörterbuch an „ top5_similar_words “ an.
  • Druck die fünf häufigsten Wörter für jedes der gesuchten Wörter aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Word2Vec model
w2v_model = Word2Vec.load(____)

# Selected words to check similarities
words_of_interest = ____

# Compute top 5 similar words for each of the words of interest
top5_similar_words = []
for word in words_of_interest:
    top5_similar_words.append(
      {word: [item[0] for item in w2v_model.wv.____([word], topn=5)]}
    )

# Print the similar words
____
Code bearbeiten und ausführen