1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tłumaczenie maszynowe z Keras

Connected

ćwiczenie

Część 2: Eksploracja zbioru danych

Teraz przyjrzysz się wybranym właściwościom zbioru danych. Konkretnie – wyznaczysz średnią długość zdań (czyli liczbę słów) oraz rozmiar słownika dla angielskiego zbioru danych.

W tym ćwiczeniu dostępny jest angielski zbiór danych en_text zawierający listę zdań w języku angielskim. Będziesz korzystać z funkcji listowej Pythona <list>.extend(), która różni się od <list>.append(). Zobaczmy tę różnicę na przykładzie. Niech a=[1,2,3] i b=[4,5]. Wywołanie a.append(b) da listę [1,2,3,[4,5]], natomiast a.extend(b) da [1,2,3,4,5].

Instrukcje

100 XP
  • Oblicz długości poszczególnych zdań, używając funkcji split() i len() podczas iterowania po en_text.
  • Oblicz średnią długość zdań za pomocą biblioteki numpy.
  • Wypełnij listę all_words w ciele pętli for, dodając wszystkie słowa znalezione w zdaniach po tokenizacji.
  • Przekształć listę all_words w obiekt set i oblicz jego długość/rozmiar.