Première partie : Exploration de l'ensemble de données

Vous allez maintenant explorer un peu le jeu de données. Vous aurez d'abord un aperçu de la structure des données. Vous allez imprimer certaines données et apprendre à tokeniser les phrases contenues dans ces données en mots individuels. Pour la langue anglaise, la tokenisation semble être une tâche simple. Cependant, il existe des langues telles que le japonais, qui ne sont pas aussi clairement délimitées que l'anglais.

Pour cet exercice, vous disposez de deux ensembles de données : en_text et fr_text. Le fichier « en_text » contient une liste de phrases en anglais, tandis que le fichier « fr_text » contient la liste correspondante de phrases en français.

Cet exercice fait partie du cours

Traduction automatique avec Keras

Afficher le cours

Instructions

Veuillez écrire une fonction d'zip() qui parcourt les 5 premières phrases des phrases anglaises (en_text) et des phrases françaises (fr_text).
Veuillez trouver la première phrase en anglais à partir de l'adresse suivante : en_text.
Tokenisez la phrase obtenue à l'aide de la fonction « split() » et du caractère espace, puis associez-la à « first_words ».
Veuillez imprimer les mots tokenisés.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)

Modifier et exécuter le code