Parte 2: Explorando o conjunto de dados

Agora você vai dar uma olhada em alguns atributos do conjunto de dados. Especificamente, você vai calcular o tamanho médio (ou seja, o número de palavras) de todas as frases e o tamanho do vocabulário do conjunto de dados em inglês.

Para este exercício, foi fornecido o conjunto de dados em inglês en_text, que contém uma lista de frases em inglês. Neste exercício, você vai usar uma função relacionada a listas do Python chamada “ <list>.extend() ”, que é uma variante diferente da função “ <list>.append() ”. Vamos entender a diferença com um exemplo. Digite a=[1,2,3] e b=[4,5]. a.append(b) resultaria em uma lista [1,2,3,[4,5]], onde a.extend(b) resultaria em [1,2,3,4,5].

Este exercício faz parte do curso

Tradução automática com Keras

Ver curso

Instruções do exercício

Calcule o comprimento de cada frase usando a função “ split() ” e a função “ len() ”, enquanto repete en_text.
Calcule o comprimento médio das frases usando numpy.
Preencha a lista all_words, no corpo do loop for, adicionando todas as palavras encontradas nas frases após a tokenização.
Converta a lista “ all_words ” em um objeto “ set ” e calcule o comprimento/tamanho do conjunto.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)

Editar e executar o código