Sich an Textdaten gewöhnen
In dieser Übung wirst du mit Textdaten rumspielen, indem du Zitate von Sheldon Cooper aus der TV-Serie „The Big Bang Theory“ analysierst. So kannst du Sätze analysieren und ein Gefühl dafür bekommen, wie es ist, mit echten Textdaten zu arbeiten.
Du wirst Wörterbuch-Comprehensions verwenden, um Wörterbücher zu erstellen, die Wörter zu Indizes und umgekehrt zuordnen. Wörterbücher sind besser als so was wie „ pandas.DataFrame “, weil sie einfacher zu verstehen sind und nicht unnötig kompliziert.
Die Daten findest du unter „ sheldon_quotes “, die ersten beiden Sätze sind schon für dich ausgedruckt.
Diese Übung ist Teil des Kurses
Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras
Anleitung zur Übung
joindie Sätze in eine Variable und extrahiere dann alle Wörter und speichere diese Liste in „all_words“.- Entferne die doppelten Wörter, indem du „
list(set())“ auf die Wortliste anwendest, und speichere sie in „unique_words“. - Erstell ein Wörterbuch mit Indizes als Schlüssel und Wörtern als Werte mithilfe von Wörterbuch-Comprehensions.
- Erstell ein Wörterbuch mit Wörtern als Schlüssel und Indizes als Werte mithilfe von Wörterbuch-Comprehensions.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')
# Get number of unique words
unique_words = list(set(all_words))
# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}
print(index_to_word)
# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}
print(word_to_index)