Parte 1: Explorando o conjunto de dados
Agora você vai explorar um pouco o conjunto de dados. Primeiro, vai entender como os dados são. Você vai imprimir parte dos dados e aprender a tokenizar as sentenças, separando-as em palavras individuais. No caso do inglês, a tokenização costuma ser uma tarefa trivial; porém, há idiomas como o japonês que não têm separadores tão consistentes quanto o inglês.
Neste exercício, foram fornecidos dois conjuntos de dados: en_text e fr_text. O en_text contém uma lista de sentenças em inglês, enquanto o fr_text contém a lista correspondente de sentenças em francês.
Este exercício faz parte do curso
Machine Translation with Keras
Instruções do exercício
- Escreva uma função
zip()que itere pelas 5 primeiras sentenças em inglês (en_text) e em francês (fr_text). - Obtenha a primeira sentença em inglês de
en_text. - Tokenize a sentença usando a função
split()com o caractere de espaço e atribua o resultado afirst_words. - Imprima as palavras tokenizadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):
print("English: ", en_sent)
print("\tFrench: ", fr_sent)
# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)