Word2Vec

In dieser Übung erstellst du ein Word2Vec-Modell mit Keras.

Das Corpus, das zum Vorabtraining des Modells verwendet wurde, ist das Skript aller Folgen der TV-Serie „The Big Bang Theory“, das Satz für Satz aufgeteilt wurde. Es ist in der Variablen bigbang verfügbar.

Der Text im Korpus wurde in Kleinbuchstaben umgewandelt und alle Wörter wurden in Token zerlegt. Das Ergebnis wird in der Variablen „ tokenized_corpus “ gespeichert.

Ein „ Word2Vec “-Modell wurde mit einer Fenstergröße von 10 Wörtern für den Kontext (5 vor und 5 nach dem mittleren Wort) vortrainiert, Wörter mit weniger als 3 Vorkommen wurden entfernt und die Skip-Gram-Modellmethode wurde mit 50 Dimensionen verwendet. Das Modell wird in der Datei „ bigbang_word2vec.model “ gespeichert.

Die Klasse „ Word2Vec ” ist schon in der Umgebung von „ gensim.models.word2vec ” geladen.

Diese Übung ist Teil des Kurses

Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras

Anleitung zur Übung

Lade das schon trainierte Word2Vec-Modell.
Speichere einen „ list ” mit den Wörtern „ "bazinga", "penny", "universe", "spock", "brain" ” in der Variablen „ words_of_interest ” und behalte die Reihenfolge bei.
Geh alle Wörter durch, die dich interessieren, und benutze dabei die Methode „ .most_similar() “, die du unter dem Attribut „ wv “ findest. Füge dann die fünf ähnlichsten Wörter als Wörterbuch an „ top5_similar_words “ an.
Druck die fünf häufigsten Wörter für jedes der gesuchten Wörter aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Word2Vec model
w2v_model = Word2Vec.load(____)

# Selected words to check similarities
words_of_interest = ____

# Compute top 5 similar words for each of the words of interest
top5_similar_words = []
for word in words_of_interest:
    top5_similar_words.append(
      {word: [item[0] for item in w2v_model.wv.____([word], topn=5)]}
    )

# Print the similar words
____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du die Grundlagen von rekurrenten neuronalen Netzen (RNN) kennen. Wir starten mit ein paar Voraussetzungen, schauen uns dann an, wie Infos im Netzwerk fließen, und zeigen schließlich, wie man solche Modelle mit Keras bei der Sentiment-Klassifizierung umsetzt.

Exercise 1: Einführung in den Kurs Exercise 2: Vergleich der Anzahl der Parameter von RNN und ANN Exercise 3: Stimmungsanalyse Exercise 4: Sequenz-zu-Sequenz-Modelle Exercise 5: Einführung in Sprachmodelle Exercise 6: Sich an Textdaten gewöhnen Exercise 7: Textdaten für die Modelleingabe vorbereiten Exercise 8: Neuen Text umwandeln Exercise 9: Einführung in RNN in Keras Exercise 10: Keras-Modelle Exercise 11: Keras-Vorverarbeitung Exercise 12: Dein erstes RNN-Modell

Du lernst die Probleme des Gradientenverlusts und der Gradientenexplosion kennen, die oft bei RNNs auftreten, und wie du mit GRU- und LSTM-Zellen damit umgehen kannst. Außerdem wirst du Einbettungsebenen für Sprachmodelle erstellen und dich nochmal mit der Sentimentklassifizierung beschäftigen.

Exercise 1: Verschwindende und explodierende Gradienten Exercise 2: Explodierendes Gradientenproblem Exercise 3: Problem mit dem verschwindenden Gradienten Exercise 4: GRU- und LSTM-Zellen Exercise 5: GRU-Zellen sind besser als einfache RNNs.Exercise 6: RNN-Schichten stapeln Exercise 7: Die Einbettungsschicht Exercise 8: Anzahl der Parameter im Vergleich Exercise 9: Lernen übertragen Exercise 10: Einbettungen verbessern die Leistung Exercise 11: Sentimentklassifizierung nochmal angeschaut Exercise 12: Bessere Einstufung der Stimmung Exercise 13: Verwendung der CNN-Schicht

Als Nächstes lernst du in diesem Kapitel, wie du Daten für die Mehrklassenklassifizierung aufbereitest und was der Unterschied zwischen Mehrklassenklassifizierung und binärer Klassifizierung (Sentimentanalyse) ist. Zum Schluss lernst du, wie du mit Keras Modelle erstellen und deren Leistung messen kannst.

Exercise 1: Datenvorverarbeitung Exercise 2: Etikettenvektoren vorbereiten Exercise 3: Daten vorbereiten Exercise 4: Transferlernen für Sprachmodelle Exercise 5: Ausgangspunkt für Transferlernen Exercise 6: Word2Vec

Aktuelle Übung

Exercise 7: Klassifizierungsmodelle mit mehreren Klassen Exercise 8: Datensatz „20 News Groups“ erkunden Exercise 9: Nachrichtenartikel sortieren Exercise 10: Die Leistung des Modells checken Exercise 11: Präzision-Rückruf-Kompromiss Exercise 12: Genauigkeit oder Rückrufquote, das ist die Frage Exercise 13: Leistung bei der Klassifizierung mehrerer Klassen

In diesem Kapitel lernst du zwei Anwendungen von RNN-Modellen kennen: Textgenerierung und neuronale maschinelle Übersetzung. Du lernst, wie du die Textdaten so aufbereitest, dass sie für die Modelle passen. Das Textgenerierungsmodell wird verwendet, um die Sprechweise einer Figur nachzuahmen, und wird Spaß dabei haben, Sheldon aus „The Big Bang Theory“ zu imitieren. Neuronale maschinelle Übersetzung wird zum Beispiel von Google Translate in einem viel komplexeren Modell verwendet. In diesem Kapitel erstellst du ein Modell, das kurze Sätze aus dem Portugiesischen ins Englische übersetzt.

Exercise 1: Sequenz-zu-Sequenz-Modelle Exercise 2: Beispiele für die Textgenerierung Exercise 3: NMT-Beispiel Exercise 4: Die Funktion zum Erstellen von Texten Exercise 5: Nächstes Zeichen vorhersagen Exercise 6: Satz mit Kontext erstellen Exercise 7: Ändere die Wahrscheinlichkeitsskala Exercise 8: Modelle zur Textgenerierung Exercise 9: Erstelle Vektoren aus Sätzen und den nächsten Zeichen Exercise 10: Vorbereitung der Daten für das Training Exercise 11: Erstellen des Textgenerierungsmodells Exercise 12: Neuronale maschinelle Übersetzung Exercise 13: Den Text vorbereiten Exercise 14: Den Text für die Ausgabe vorbereiten Exercise 15: Übersetze Portugiesisch ins Englische Exercise 16: Glückwunsch!