2.ª parte: Exploración del conjunto de datos
Ahora explorarás algunos atributos del conjunto de datos. En concreto, determinarás la longitud media (es decir, el número de palabras) de todas las frases y el tamaño del vocabulario del conjunto de datos en inglés.
Para este ejercicio, se ha proporcionado el conjunto de datos en inglés « en_text
», que contiene una lista de oraciones en inglés. En este ejercicio utilizarás una función relacionada con las listas de Python llamada « <list>.extend()
», que es una variante diferente de la función « <list>.append()
». Entendamos la diferencia con un ejemplo. Di « a=[1,2,3]
» y « b=[4,5]
». « a.append(b)
» daría como resultado una lista « [1,2,3,[4,5]]
», donde « a.extend(b)
» daría como resultado « [1,2,3,4,5]
».
Este ejercicio forma parte del curso
Traducción automática con Keras
Instrucciones del ejercicio
- Calcula la longitud de cada frase utilizando la función «
split()
» y la función «len()
», mientras iterás a través de «en_text
». - Calcula la longitud media de las frases utilizando
numpy
. - Rellena la lista
all_words
, en el cuerpo del bucle for, añadiendo todas las palabras encontradas en las frases después de tokenizar. - Convierte la lista «
all_words
» en un objeto «set
» y calcula la longitud/tamaño del conjunto.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)