Deel 2: De gegevensset verkennen
Nu ga je een paar eigenschappen van de gegevensset verkennen. Je bepaalt specifiek de gemiddelde lengte (dus het aantal woorden) van alle zinnen en de grootte van de woordenschat voor de Engelse gegevensset.
Voor deze oefening is de Engelse gegevensset en_text met een lijst van Engelse zinnen beschikbaar. In deze oefening gebruik je een Python-lijstfunctie genaamd <list>.extend(), een andere variant van de functie <list>.append(). Laten we het verschil bekijken met een voorbeeld. Stel a=[1,2,3] en b=[4,5]. a.append(b) resulteert in de lijst [1,2,3,[4,5]], terwijl a.extend(b) resulteert in [1,2,3,4,5].
Deze oefening maakt deel uit van de cursus
Machine Translation met Keras
Oefeninstructies
- Bereken de lengte van elke zin met
split()enlen(), terwijl je dooren_textitereert. - Bereken de gemiddelde zinslengte met
numpy. - Vul de lijst
all_wordsin de for-lus door alle woorden uit de zinnen (na tokenizen) toe te voegen. - Zet de lijst
all_wordsom naar eenset-object en bereken de lengte/grootte van de set.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)