Deel 2: De gegevensset verkennen

Nu ga je een paar eigenschappen van de gegevensset verkennen. Je bepaalt specifiek de gemiddelde lengte (dus het aantal woorden) van alle zinnen en de grootte van de woordenschat voor de Engelse gegevensset.

Voor deze oefening is de Engelse gegevensset en_text met een lijst van Engelse zinnen beschikbaar. In deze oefening gebruik je een Python-lijstfunctie genaamd <list>.extend(), een andere variant van de functie <list>.append(). Laten we het verschil bekijken met een voorbeeld. Stel a=[1,2,3] en b=[4,5]. a.append(b) resulteert in de lijst [1,2,3,[4,5]], terwijl a.extend(b) resulteert in [1,2,3,4,5].

Deze oefening maakt deel uit van de cursus

Machine Translation met Keras

Bekijk cursus

Oefeninstructies

Bereken de lengte van elke zin met split() en len(), terwijl je door en_text itereert.
Bereken de gemiddelde zinslengte met numpy.
Vul de lijst all_words in de for-lus door alle woorden uit de zinnen (na tokenizen) toe te voegen.
Zet de lijst all_words om naar een set-object en bereken de lengte/grootte van de set.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)

Code bewerken en uitvoeren