Aan de slagGa gratis aan de slag

Wennen aan tekstdata

In deze oefening ga je aan de slag met tekstdata door citaten van Sheldon Cooper uit de tv-serie The Big Bang Theory te analyseren. Zo krijg je de kans om zinnen te onderzoeken en inzicht te krijgen in hoe het is om met tekst uit de echte wereld te werken.

Je gebruikt dictionary-comprehensions om woorden naar indexen en andersom te mappen. We gebruiken dictionaries in plaats van bijvoorbeeld een pandas.DataFrame, omdat ze intuïtiever zijn en geen onnodige extra complexiteit toevoegen.

De data staat in sheldon_quotes, en de eerste twee zinnen zijn alvast voor je afgedrukt.

Deze oefening maakt deel uit van de cursus

Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

Cursus bekijken

Oefeninstructies

  • join de zinnen tot één variabele en extraheer vervolgens alle woorden; sla deze lijst op in all_words.
  • Verwijder dubbele woorden door list(set()) toe te passen op de woordenlijst en sla ze op in unique_words.
  • Maak een dictionary met indexen als keys en woorden als values met behulp van dictionary-comprehensions.
  • Maak een dictionary met woorden als keys en indexen als values met behulp van dictionary-comprehensions.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')

# Get number of unique words
unique_words = list(set(all_words))

# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}

print(index_to_word)

# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}

print(word_to_index)
Code bewerken en uitvoeren