1.ª parte: Exploración del conjunto de datos

Ahora explorarás un poco el conjunto de datos. Primero te harás una idea de cómo son los datos. Imprimirás algunos de los datos y aprenderás a tokenizar las frases de los datos en palabras individuales. En el caso del inglés, la tokenización parece una tarea trivial, sin embargo, hay idiomas como el japonés, que no están tan delimitados como el inglés.

Para este ejercicio, se te han proporcionado dos conjuntos de datos: en_text y fr_text. El archivo « en_text » contiene una lista de frases en inglés, mientras que el archivo « fr_text » contiene la lista correspondiente de frases en francés.

Este ejercicio forma parte del curso

Traducción automática con Keras

Ver curso

Instrucciones del ejercicio

Escribe una función « zip() » que itere las primeras 5 frases de las frases en inglés (en_text) y las frases en francés (fr_text).
Obtenga la primera frase en inglés de en_text.
Tokeniza la frase obtenida utilizando la función split() y el carácter espacio, y asígnalo a first_words.
Imprime las palabras tokenizadas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)

Editar y ejecutar código