Sich an Textdaten gewöhnen
In dieser Übung wirst du mit Textdaten rumspielen, indem du Zitate von Sheldon Cooper aus der TV-Serie „The Big Bang Theory“ analysierst. So kannst du Sätze analysieren und ein Gefühl dafür bekommen, wie es ist, mit echten Textdaten zu arbeiten.
Du wirst Wörterbuch-Comprehensions verwenden, um Wörterbücher zu erstellen, die Wörter zu Indizes und umgekehrt zuordnen. Wörterbücher sind besser als so was wie „ pandas.DataFrame “, weil sie einfacher zu verstehen sind und nicht unnötig kompliziert.
Die Daten findest du unter „ sheldon_quotes “, die ersten beiden Sätze sind schon für dich ausgedruckt.
Diese Übung ist Teil des Kurses
<Kurs>Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras</Kurs>Übungsanweisungen
joindie Sätze in eine Variable und extrahiere dann alle Wörter und speichere diese Liste in „all_words“.- Entferne die doppelten Wörter, indem du „
list(set())“ auf die Wortliste anwendest, und speichere sie in „unique_words“. - Erstell ein Wörterbuch mit Indizes als Schlüssel und Wörtern als Werte mithilfe von Wörterbuch-Comprehensions.
- Erstell ein Wörterbuch mit Wörtern als Schlüssel und Indizes als Werte mithilfe von Wörterbuch-Comprehensions.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')
# Get number of unique words
unique_words = list(set(all_words))
# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}
print(index_to_word)
# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}
print(word_to_index)