Daten vorbereiten
Du hast die Unterschiede bei der Datenvorverarbeitung für die Mehrklassenklassifizierung kennengelernt. Probieren wir das mal aus, indem wir die Daten vorbereiten, um ein einfaches Modell für die Klassifizierung mehrerer Klassen zu erstellen.
Der Datensatz wird in die Variable „ news_dataset “ geladen und hat die folgenden Attribute:
news_dataset.data: Array mit Textennews_dataset.target: Array mit Zielkategorien als numerische Indizes
Die Beispieldaten haben 5.000 Beobachtungen.
Diese Übung ist Teil des Kurses
Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras
Anleitung zur Übung
- Instanziere die Klasse „
Tokenizer” auf der Variable „tokenizer”. - Pass die Variable „
tokenizer” an die Textdaten an. - Wende die Methode „
.texts_to_sequences()“ auf die Textdaten an. - Benutz die Funktion „
to_categorical()“, um die Zielindizes vorzubereiten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)
# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)
# Prepare the labels
target_labels = to_categorical(____)
# Print the shapes
print(prep_data.shape)
print(target_labels.shape)