Parte 1: Explorando o conjunto de dados
Agora você vai dar uma olhada no conjunto de dados. Primeiro, você vai ter uma ideia de como são os dados. Você vai imprimir alguns dos dados e aprender a dividir as frases dos dados em palavras individuais. Para o idioma inglês, a tokenização parece ser uma tarefa trivial, mas existem idiomas, como o japonês, que não são tão consistentemente delimitados quanto o inglês.
Para este exercício, você recebeu dois conjuntos de dados: en_text
e fr_text
. O arquivo “ en_text
” tem uma lista de frases em inglês, enquanto o arquivo “ fr_text
” tem a lista de frases em francês.
Este exercício faz parte do curso
Tradução automática com Keras
Instruções do exercício
- Escreva uma função “
zip()
” que repita as primeiras 5 frases das frases em inglês (en_text
) e das frases em francês (fr_text
). - Pega a primeira frase em inglês de
en_text
. - Tokenize a frase obtida usando a função “
split()
” e o caractere espaço e atribua-a a “first_words
”. - Imprima as palavras tokenizadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):
print("English: ", en_sent)
print("\tFrench: ", fr_sent)
# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)