Erstelle Vektoren aus Sätzen und den nächsten Zeichen
Diese Übung soll zeigen, wie wichtig es ist, Daten gut vorzubereiten. Du wirst Texte mit Phrasen von Sheldon aus der TV-Serie „The Big Bang Theory“ als Eingabe nehmen und Vektoren mit Satzindizes und den nächsten Zeichen erstellen, die du brauchst, bevor du ein Textgenerierungsmodell erstellen kannst.
Der Text ist in der Variablen „ sheldon ” verfügbar, ebenso wie das Vokabular (Zeichen) in der Variablen „ vocabulary ” und die Hyperparameter „ chars_window ” und „ step ”, die mit den Werten „ 20 ” und „ 3 ” definiert sind. Das heißt, dass eine Folge von 20 Zeichen benutzt wird, um das nächste Zeichen vorherzusagen, und das Fenster bei jeder Wiederholung um 3 Zeichen verschoben wird.
Außerdem wird das Paket „ pandas “ als „ pd “ in die Umgebung geladen.
Diese Übung ist Teil des Kurses
Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras
Anleitung zur Übung
- Teile den Text durch Zeilenumbrüche auf, um die Sätze zu durchlaufen.
- Wiederhole das bis zum Ende des Satzes minus „
chars_window“. - Füge den Teil des Satzes, der die Zeichen „
chars_window“ enthält, an die Variable „sentences“ an und füge das nächste Zeichen an die Variable „next_chars“ an. - Mit den Vektoren machst du eine Matrix namens „
pd.DataFrame()“ und druckst die ersten Zeilen aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
# Get 20 previous chars and next char; then shift by step
for i in range(0, len(sentence) - ____, step):
sentences.append(sentence[i:i + ____])
next_chars.append(sentence[____ + chars_window])
# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})
# Print the initial rows
print(df.head())