Teil 2: Den Datensatz checken
Jetzt wirst du ein paar Eigenschaften des Datensatzes anschauen. Konkret wirst du die durchschnittliche Länge (also die Anzahl der Wörter) aller Sätze und den Umfang des Vokabulars für den englischen Datensatz bestimmen.
Für diese Übung gibt's den englischen Datensatz „ en_text
“ mit einer Liste englischer Sätze. In dieser Übung wirst du eine Python-Funktion namens „ <list>.extend()
” verwenden, die eine andere Variante der Funktion „ <list>.append()
” ist. Schauen wir uns den Unterschied anhand eines Beispiels an. Sag mal „ a=[1,2,3]
“ und „ b=[4,5]
“. „ a.append(b)
“ würde zu einer Liste führen: „ [1,2,3,[4,5]]
“, wobei „ a.extend(b)
“ zu „ [1,2,3,4,5]
“ führen würde.
Diese Übung ist Teil des Kurses
Maschinelle Übersetzung mit Keras
Anleitung zur Übung
- Berechne die Länge jedes Satzes mit den Funktionen „
split()
“ und „len()
“, während du „en_text
“ durchläufst. - Berechne die durchschnittliche Länge der Sätze mit „
numpy
“. - Fülle die Liste „
all_words
“ im for-Schleifenkörper, indem du alle Wörter hinzufügst, die nach der Tokenisierung in den Sätzen gefunden wurden. - Wandle die Liste „
all_words
“ in ein „set
“-Objekt um und berechne die Länge/Größe des Sets.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)