Parte 2: Explorando o conjunto de dados
Agora você vai explorar alguns atributos do conjunto de dados. Especificamente, você vai determinar o comprimento médio (isto é, o número de palavras) de todas as sentenças e o tamanho do vocabulário para o conjunto de dados em inglês.
Para este exercício, foi fornecido o conjunto de dados em inglês en_text, contendo uma lista de sentenças em inglês. Neste exercício você usará uma função relacionada a listas do Python chamada <list>.extend(), que é uma variante diferente da função <list>.append(). Vamos entender a diferença com um exemplo. Suponha a=[1,2,3] e b=[4,5]. a.append(b) resultaria na lista [1,2,3,[4,5]], enquanto a.extend(b) resultaria em [1,2,3,4,5].
Este exercício faz parte do curso
Machine Translation with Keras
Instruções do exercício
- Calcule os comprimentos de cada sentença usando a função
split()e a funçãolen(), enquanto itera poren_text. - Calcule o comprimento médio das sentenças usando
numpy. - Preencha a lista
all_words, no corpo do laço for, adicionando todas as palavras encontradas nas sentenças após a tokenização. - Converta a lista
all_wordsem um objetosete calcule o comprimento/tamanho desse set.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)