Sätze mit Keras tokenisieren
Hier kannst du dich mit dem Keras-Framework „ Tokenizer “ vertraut machen. Die Keras- Tokenizer ist ein super Tool, mit dem du wichtige Textverarbeitung mit nur ein paar Zeilen Code erledigen kannst. Zum Beispiel ordnet die Keras-Funktion „ Tokenizer “ die Wörter in deinem Vokabular mit einem einzigen Funktionsaufruf automatisch IDs zu. Hier erfährst du mehr darüber.
Du wirst ein Keras-Objekt „ Tokenizer ” erstellen und es an einen Text anpassen, damit „ Tokenizer ” ein Wörterbuch mit Wörtern und den dazugehörigen IDs erstellen kann. Der Text, mit dem das „ Tokenizer “ trainiert wurde, kommt aus dem Udacity Github Repo.
Diese Übung ist Teil des Kurses
Maschinelle Übersetzung mit Keras
Anleitung zur Übung
- Definiere ein Keras-Tokenizer-Objekt.
- Pass den Tokenizer auf „
en_text“ an. - Hol dir die Wort-ID für jedes Wort „
w” in der Liste „["january", "apples", "summer"]”. - Druck das Wort und die dazugehörige ID aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)