LoslegenKostenlos loslegen

Keras-Vorverarbeitung

Das zweitwichtigste Modul von Keras ist „ keras.preprocessing “. Du lernst, wie du die wichtigsten Module und Funktionen nutzt, um Rohdaten in die richtige Eingabeform zu bringen. Keras hat Funktionen, die den Dictionary-Ansatz, den du schon kennst, ersetzen.

Mit dem Modul „ keras.preprocessing.text.Tokenizer “ erstellst du ein Wörterbuch mit der Methode „ .fit_on_texts() “ und änderst die Texte in numerische IDs, die den Index jedes Wortes im Wörterbuch darstellen, mit der Methode „ .texts_to_sequences() “.

Dann nimm die Funktion „ .pad_sequences() ” von keras.preprocessing.sequence, um alle Sequenzen gleich groß zu machen (das ist für das Modell wichtig), indem du bei den kleinen Texten Nullen hinzufügst und die großen abschneidest.

Diese Übung ist Teil des Kurses

Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras

Kurs anzeigen

Anleitung zur Übung

  • Importiere „ Tokenizer “ und „ pad_sequences “ aus den entsprechenden Modulen.
  • Pass das Objekt „ tokenizer ” an die Beispieldaten an, die unter „ texts ” gespeichert sind.
  • Verwandle die Texte mit der Methode „ .texts_to_sequences() “ in Reihen von Zahlen.
  • Mach die Texte gleich groß, indem du sie auffüllst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import relevant classes/functions
from tensorflow.keras.preprocessing.text import ____
from tensorflow.keras.preprocessing.sequence import ____

# Build the dictionary of indexes
tokenizer = Tokenizer()
tokenizer.fit_on_texts(____)

# Change texts into sequence of indexes
texts_numeric = tokenizer.____(texts)
print("Number of words in the sample texts: ({0}, {1})".format(len(texts_numeric[0]), len(texts_numeric[1])))

# Pad the sequences
texts_pad = ____(texts_numeric, 60)
print("Now the texts have fixed length: 60. Let's see the first one: \n{0}".format(texts_pad[0]))
Code bearbeiten und ausführen