Parte 2: Explorando o conjunto de dados
Agora você vai dar uma olhada em alguns atributos do conjunto de dados. Especificamente, você vai calcular o tamanho médio (ou seja, o número de palavras) de todas as frases e o tamanho do vocabulário do conjunto de dados em inglês.
Para este exercício, foi fornecido o conjunto de dados em inglês en_text
, que contém uma lista de frases em inglês. Neste exercício, você vai usar uma função relacionada a listas do Python chamada “ <list>.extend()
”, que é uma variante diferente da função “ <list>.append()
”. Vamos entender a diferença com um exemplo. Digite a=[1,2,3]
e b=[4,5]
. a.append(b)
resultaria em uma lista [1,2,3,[4,5]]
, onde a.extend(b)
resultaria em [1,2,3,4,5]
.
Este exercício faz parte do curso
Tradução automática com Keras
Instruções do exercício
- Calcule o comprimento de cada frase usando a função “
split()
” e a função “len()
”, enquanto repeteen_text
. - Calcule o comprimento médio das frases usando
numpy
. - Preencha a lista
all_words
, no corpo do loop for, adicionando todas as palavras encontradas nas frases após a tokenização. - Converta a lista “
all_words
” em um objeto “set
” e calcule o comprimento/tamanho do conjunto.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)