Deuxième partie : Exploration de l'ensemble de données

Vous allez maintenant explorer certaines caractéristiques de l'ensemble de données. Plus précisément, vous déterminerez la longueur moyenne (c'est-à-dire le nombre de mots) de toutes les phrases et la taille du vocabulaire pour l'ensemble de données en anglais.

Pour cet exercice, l'ensemble de données en anglais en_text contenant une liste de phrases en anglais a été fourni. Dans cet exercice, vous utiliserez une fonction Python liée aux listes appelée « <list>.extend() », qui est une variante de la fonction « <list>.append() ». Comprenons la différence à l'aide d'un exemple. Par exemple, « a=[1,2,3] » et « b=[4,5] ». « a.append(b) » donnerait la liste suivante : « [1,2,3,[4,5]] », où « a.extend(b) » donnerait « [1,2,3,4,5] ».

Cet exercice fait partie du cours

Traduction automatique avec Keras

Afficher le cours

Instructions

Calculez la longueur de chaque phrase à l'aide des fonctions « split() » et « len() », tout en parcourant « en_text ».
Calculez la longueur moyenne des phrases à l'aide de numpy.
Remplissez la liste d'all_words, dans le corps de la boucle for, en ajoutant tous les mots trouvés dans les phrases après la tokenisation.
Convertissez la liste « all_words » en un objet « set » et calculez la longueur/taille de l'ensemble.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)

Modifier et exécuter le code