Se familiariser avec les données textuelles

Dans cet exercice, vous allez manipuler des données textuelles en analysant des répliques de Sheldon Cooper dans la série The Big Bang Theory. L’objectif est de vous entraîner à analyser des phrases pour comprendre ce que signifie travailler avec des textes issus du monde réel.

Vous utiliserez des compréhensions de dictionnaire pour créer des dictionnaires qui associent des mots à des index et inversement. Nous utilisons des dictionnaires plutôt que, par exemple, un pandas.DataFrame, car ils sont plus intuitifs et n’ajoutent pas de complexité inutile.

Les données sont disponibles dans sheldon_quotes, avec les deux premières phrases déjà affichées pour vous.

Cet exercice fait partie du cours

<cours>Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras</cours>

Voir le cours

Instructions de l’exercice

Utilisez join pour concaténer les phrases dans une seule variable, puis extrayez tous les mots et stockez cette liste dans all_words.
Supprimez les doublons en appliquant list(set()) à la liste de mots et stockez le résultat dans unique_words.
Créez un dictionnaire avec les index comme clés et les mots comme valeurs à l’aide d’une compréhension de dictionnaire.
Créez un dictionnaire avec les mots comme clés et les index comme valeurs à l’aide d’une compréhension de dictionnaire.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')

# Get number of unique words
unique_words = list(set(all_words))

# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}

print(index_to_word)

# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}

print(word_to_index)

Modifier et exécuter le code