Wennen aan tekstdata
In deze oefening ga je aan de slag met tekstdata door citaten van Sheldon Cooper uit de tv-serie The Big Bang Theory te analyseren. Zo krijg je de kans om zinnen te onderzoeken en inzicht te krijgen in hoe het is om met tekst uit de echte wereld te werken.
Je gebruikt dictionary-comprehensions om woorden naar indexen en andersom te mappen. We gebruiken dictionaries in plaats van bijvoorbeeld een pandas.DataFrame, omdat ze intuïtiever zijn en geen onnodige extra complexiteit toevoegen.
De data staat in sheldon_quotes, en de eerste twee zinnen zijn alvast voor je afgedrukt.
Deze oefening maakt deel uit van de cursus
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras
Oefeninstructies
joinde zinnen tot één variabele en extraheer vervolgens alle woorden; sla deze lijst op inall_words.- Verwijder dubbele woorden door
list(set())toe te passen op de woordenlijst en sla ze op inunique_words. - Maak een dictionary met indexen als keys en woorden als values met behulp van dictionary-comprehensions.
- Maak een dictionary met woorden als keys en indexen als values met behulp van dictionary-comprehensions.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')
# Get number of unique words
unique_words = list(set(all_words))
# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}
print(index_to_word)
# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}
print(word_to_index)