CommencerCommencer gratuitement

S'habituer aux données textuelles

Dans cet exercice, vous allez manipuler des données textuelles en analysant des citations de Sheldon Cooper dans la série télévisée The Big Bang Theory. Cela vous permettra d'analyser des phrases afin de mieux comprendre comment traiter des données textuelles réelles.

Vous utiliserez des compréhensions de dictionnaire pour créer des dictionnaires qui associent des mots à des index et vice versa. L'utilisation de dictionnaires plutôt que, par exemple, d'une liste de mots ( pandas.DataFrame ) s'explique par le fait qu'ils sont plus intuitifs et n'ajoutent pas de complexité inutile.

Les données sont disponibles à l'adresse sheldon_quotes, les deux premières phrases étant déjà imprimées pour vous.

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

Afficher le cours

Instructions

  • join les phrases dans une variable, puis extrayez tous les mots et enregistrez cette liste dans all_words.
  • Supprimez les mots en double en appliquant la fonction « list(set()) » (Supprimer les doublons) à la liste de mots et enregistrez-les dans « unique_words ».
  • Créez un dictionnaire avec des index comme clés et des mots comme valeurs à l'aide de compréhensions de dictionnaire.
  • Créez un dictionnaire avec des mots comme clés et des index comme valeurs à l'aide de compréhensions de dictionnaire.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')

# Get number of unique words
unique_words = list(set(all_words))

# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}

print(index_to_word)

# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}

print(word_to_index)
Modifier et exécuter le code