LoslegenKostenlos starten

Sich an Textdaten gewöhnen

In dieser Übung wirst du mit Textdaten rumspielen, indem du Zitate von Sheldon Cooper aus der TV-Serie „The Big Bang Theory“ analysierst. So kannst du Sätze analysieren und ein Gefühl dafür bekommen, wie es ist, mit echten Textdaten zu arbeiten.

Du wirst Wörterbuch-Comprehensions verwenden, um Wörterbücher zu erstellen, die Wörter zu Indizes und umgekehrt zuordnen. Wörterbücher sind besser als so was wie „ pandas.DataFrame “, weil sie einfacher zu verstehen sind und nicht unnötig kompliziert.

Die Daten findest du unter „ sheldon_quotes “, die ersten beiden Sätze sind schon für dich ausgedruckt.

Diese Übung ist Teil des Kurses

<Kurs>Rekursive neuronale Netze (RNNs) für die Sprachmodellierung mit Keras</Kurs>
Kurs ansehen

Übungsanweisungen

  • join die Sätze in eine Variable und extrahiere dann alle Wörter und speichere diese Liste in „ all_words “.
  • Entferne die doppelten Wörter, indem du „ list(set()) “ auf die Wortliste anwendest, und speichere sie in „ unique_words “.
  • Erstell ein Wörterbuch mit Indizes als Schlüssel und Wörtern als Werte mithilfe von Wörterbuch-Comprehensions.
  • Erstell ein Wörterbuch mit Wörtern als Schlüssel und Indizes als Werte mithilfe von Wörterbuch-Comprehensions.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')

# Get number of unique words
unique_words = list(set(all_words))

# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}

print(index_to_word)

# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}

print(word_to_index)
Code bearbeiten und ausführen