Sätze mit Keras tokenisieren

Hier kannst du dich mit dem Keras-Framework „ Tokenizer “ vertraut machen. Die Keras- Tokenizer ist ein super Tool, mit dem du wichtige Textverarbeitung mit nur ein paar Zeilen Code erledigen kannst. Zum Beispiel ordnet die Keras-Funktion „ Tokenizer “ die Wörter in deinem Vokabular mit einem einzigen Funktionsaufruf automatisch IDs zu. Hier erfährst du mehr darüber.

Du wirst ein Keras-Objekt „ Tokenizer ” erstellen und es an einen Text anpassen, damit „ Tokenizer ” ein Wörterbuch mit Wörtern und den dazugehörigen IDs erstellen kann. Der Text, mit dem das „ Tokenizer “ trainiert wurde, kommt aus dem Udacity Github Repo.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelle Übersetzung mit Keras</Kurs>

Kurs ansehen

Übungsanweisungen

Definiere ein Keras-Tokenizer-Objekt.
Pass den Tokenizer auf „ en_text “ an.
Hol dir die Wort-ID für jedes Wort „ w ” in der Liste „ ["january", "apples", "summer"] ”.
Druck das Wort und die dazugehörige ID aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)

Code bearbeiten und ausführen