2.ª parte: Exploración del conjunto de datos

Ahora explorarás algunos atributos del conjunto de datos. En concreto, determinarás la longitud media (es decir, el número de palabras) de todas las frases y el tamaño del vocabulario del conjunto de datos en inglés.

Para este ejercicio, se ha proporcionado el conjunto de datos en inglés « en_text », que contiene una lista de oraciones en inglés. En este ejercicio utilizarás una función relacionada con las listas de Python llamada « <list>.extend() », que es una variante diferente de la función « <list>.append() ». Entendamos la diferencia con un ejemplo. Di « a=[1,2,3] » y « b=[4,5] ». « a.append(b) » daría como resultado una lista « [1,2,3,[4,5]] », donde « a.extend(b) » daría como resultado « [1,2,3,4,5] ».

Este ejercicio forma parte del curso

Traducción automática con Keras

Ver curso

Instrucciones del ejercicio

Calcula la longitud de cada frase utilizando la función « split() » y la función « len() », mientras iterás a través de « en_text ».
Calcula la longitud media de las frases utilizando numpy.
Rellena la lista all_words, en el cuerpo del bucle for, añadiendo todas las palabras encontradas en las frases después de tokenizar.
Convierte la lista « all_words » en un objeto « set » y calcula la longitud/tamaño del conjunto.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)

Editar y ejecutar código