Deuxième partie : Exploration de l'ensemble de données
Vous allez maintenant explorer certaines caractéristiques de l'ensemble de données. Plus précisément, vous déterminerez la longueur moyenne (c'est-à-dire le nombre de mots) de toutes les phrases et la taille du vocabulaire pour l'ensemble de données en anglais.
Pour cet exercice, l'ensemble de données en anglais en_text
contenant une liste de phrases en anglais a été fourni. Dans cet exercice, vous utiliserez une fonction Python liée aux listes appelée « <list>.extend()
», qui est une variante de la fonction « <list>.append()
». Comprenons la différence à l'aide d'un exemple. Par exemple, « a=[1,2,3]
» et « b=[4,5]
». « a.append(b)
» donnerait la liste suivante : « [1,2,3,[4,5]]
», où « a.extend(b)
» donnerait « [1,2,3,4,5]
».
Cet exercice fait partie du cours
Traduction automatique avec Keras
Instructions
- Calculez la longueur de chaque phrase à l'aide des fonctions «
split()
» et «len()
», tout en parcourant «en_text
». - Calculez la longueur moyenne des phrases à l'aide de
numpy
. - Remplissez la liste d'
all_words
, dans le corps de la boucle for, en ajoutant tous les mots trouvés dans les phrases après la tokenisation. - Convertissez la liste «
all_words
» en un objet «set
» et calculez la longueur/taille de l'ensemble.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)