Den Text vorbereiten
Du hast im Video gesehen, wie du die Eingabe- und Ausgabetexte vorbereitest. Diese Übung soll zeigen, dass es üblich ist, die maximale Länge der Sätze zu nutzen, um sie alle auszufüllen, damit keine Infos verloren gehen.
Da die RNN-Modelle Eingaben in gleicher Größe brauchen, kannst du so alle Sätze auffüllen und einfach Nullen an die kleineren Sätze hängen, ohne die größeren zu kürzen.
Außerdem wirst du Wörter statt Zeichen verwenden, um die Tokens darzustellen. Das ist bei NMT-Modellen üblich.
Die portugiesischen Texte werden in die Variable „ pt_sentences “ geladen und ein passender Tokenizer in die Variable „ input_tokenizer “.
Diese Übung ist Teil des Kurses
Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras
Anleitung zur Übung
- Verwende die Methode „
.split()“, um jeden Satz anhand der Leerzeichen zu trennen und die Anzahl der Wörter im Satz zu ermitteln. - Mit der Methode „
.texts_to_sequences()“ kannst du Text in eine Folge von Indizes umwandeln. - Verwende die maximale Satzlänge, um die Sätze aufzufüllen.
- Druck den ersten umgewandelten Satz aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Get maximum length of the sentences
pt_length = max([len(sentence.____) for sentence in pt_sentences])
# Transform text to sequence of numerical indexes
X = input_tokenizer.____(pt_sentences)
# Pad the sequences
X = pad_sequences(X, maxlen=____, padding='post')
# Print first sentence
print(pt_sentences[0])
# Print transformed sentence
print(____)