Teil 2: Den Datensatz checken

Jetzt wirst du ein paar Eigenschaften des Datensatzes anschauen. Konkret wirst du die durchschnittliche Länge (also die Anzahl der Wörter) aller Sätze und den Umfang des Vokabulars für den englischen Datensatz bestimmen.

Für diese Übung gibt's den englischen Datensatz „ en_text “ mit einer Liste englischer Sätze. In dieser Übung wirst du eine Python-Funktion namens „ <list>.extend() ” verwenden, die eine andere Variante der Funktion „ <list>.append() ” ist. Schauen wir uns den Unterschied anhand eines Beispiels an. Sag mal „ a=[1,2,3] “ und „ b=[4,5] “. „ a.append(b) “ würde zu einer Liste führen: „ [1,2,3,[4,5]] “, wobei „ a.extend(b) “ zu „ [1,2,3,4,5] “ führen würde.

Diese Übung ist Teil des Kurses

Maschinelle Übersetzung mit Keras

Kurs anzeigen

Anleitung zur Übung

Berechne die Länge jedes Satzes mit den Funktionen „ split() “ und „ len() “, während du „ en_text “ durchläufst.
Berechne die durchschnittliche Länge der Sätze mit „ numpy “.
Fülle die Liste „ all_words “ im for-Schleifenkörper, indem du alle Wörter hinzufügst, die nach der Tokenisierung in den Sätzen gefunden wurden.
Wandle die Liste „ all_words “ in ein „ set “-Objekt um und berechne die Länge/Größe des Sets.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)

Code bearbeiten und ausführen