ComeçarComece de graça

Parte 1: Explorando o conjunto de dados

Agora você vai explorar um pouco o conjunto de dados. Primeiro, vai entender como os dados são. Você vai imprimir parte dos dados e aprender a tokenizar as sentenças, separando-as em palavras individuais. No caso do inglês, a tokenização costuma ser uma tarefa trivial; porém, há idiomas como o japonês que não têm separadores tão consistentes quanto o inglês.

Neste exercício, foram fornecidos dois conjuntos de dados: en_text e fr_text. O en_text contém uma lista de sentenças em inglês, enquanto o fr_text contém a lista correspondente de sentenças em francês.

Este exercício faz parte do curso

Machine Translation with Keras

Ver curso

Instruções do exercício

  • Escreva uma função zip() que itere pelas 5 primeiras sentenças em inglês (en_text) e em francês (fr_text).
  • Obtenha a primeira sentença em inglês de en_text.
  • Tokenize a sentença usando a função split() com o caractere de espaço e atribua o resultado a first_words.
  • Imprima as palavras tokenizadas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)
Editar e executar o código