Neuen Text umwandeln
In dieser Übung verwandelst du einen neuen Text in eine Reihe von Zahlen, die auf die zuvor erstellten Wörterbücher verweisen.
Das ist praktisch, wenn du schon ein trainiertes Modell hast und es auf einen neuen Datensatz anwenden willst. Die Vorverarbeitungsschritte, die bei den Trainingsdaten gemacht wurden, sollten auch auf den neuen Text angewendet werden, damit das Modell Vorhersagen/Klassifizierungen machen kann.
Hier benutzt du auch ein spezielles Zeichen „ '<UKN/>' “, um Wörter zu kennzeichnen, die nicht im Wortschatz vorkommen. Normalerweise sind diese speziellen Tokens die ersten Indizes der Wörterbücher, die Positions 0.
Die Variablen „ word_to_index “, „ index_to_word “ und „ vocabulary “ sind schon in der Umgebung geladen. Außerdem wird die Variable mit dem neuen Text auch als „ new_text “ geladen. Der neue Text wurde ausgedruckt, damit du ihn dir ansehen kannst.
Diese Übung ist Teil des Kurses
Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras
Anleitung zur Übung
- Durchlaufe die Liste „
new_text“, die die Sätze enthält. - Setz den Index auf „
0“, falls das Wort nicht im Wörterbuch gefunden wird. - Füge den Satz mit den Indizes zur Variablen „
new_text_split“ an. - Konvertier die Indizes mit dem Wörterbuch wieder in Text
index_to_word.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
sent_split = []
for wd in sentence.split(' '):
index = word_to_index.get(wd, ____)
sent_split.append(index)
new_text_split.append(____)
# Print the first sentence's indexes
print(new_text_split[0])
# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))