ComeçarComece de graça

Parte 2: Explorando o conjunto de dados

Agora você vai explorar alguns atributos do conjunto de dados. Especificamente, você vai determinar o comprimento médio (isto é, o número de palavras) de todas as sentenças e o tamanho do vocabulário para o conjunto de dados em inglês.

Para este exercício, foi fornecido o conjunto de dados em inglês en_text, contendo uma lista de sentenças em inglês. Neste exercício você usará uma função relacionada a listas do Python chamada <list>.extend(), que é uma variante diferente da função <list>.append(). Vamos entender a diferença com um exemplo. Suponha a=[1,2,3] e b=[4,5]. a.append(b) resultaria na lista [1,2,3,[4,5]], enquanto a.extend(b) resultaria em [1,2,3,4,5].

Este exercício faz parte do curso

Machine Translation with Keras

Ver curso

Instruções do exercício

  • Calcule os comprimentos de cada sentença usando a função split() e a função len(), enquanto itera por en_text.
  • Calcule o comprimento médio das sentenças usando numpy.
  • Preencha a lista all_words, no corpo do laço for, adicionando todas as palavras encontradas nas sentenças após a tokenização.
  • Converta a lista all_words em um objeto set e calcule o comprimento/tamanho desse set.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)
Editar e executar o código