Parte 1: Explorando o conjunto de dados

Agora você vai dar uma olhada no conjunto de dados. Primeiro, você vai ter uma ideia de como são os dados. Você vai imprimir alguns dos dados e aprender a dividir as frases dos dados em palavras individuais. Para o idioma inglês, a tokenização parece ser uma tarefa trivial, mas existem idiomas, como o japonês, que não são tão consistentemente delimitados quanto o inglês.

Para este exercício, você recebeu dois conjuntos de dados: en_text e fr_text. O arquivo “ en_text ” tem uma lista de frases em inglês, enquanto o arquivo “ fr_text ” tem a lista de frases em francês.

Este exercício faz parte do curso

Tradução automática com Keras

Ver curso

Instruções do exercício

Escreva uma função “ zip() ” que repita as primeiras 5 frases das frases em inglês (en_text) e das frases em francês (fr_text).
Pega a primeira frase em inglês de en_text.
Tokenize a frase obtida usando a função “ split() ” e o caractere espaço e atribua-a a “ first_words ”.
Imprima as palavras tokenizadas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)

Editar e executar o código