1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tłumaczenie maszynowe z Keras

Connected

ćwiczenie

Część 1: Eksploracja zbioru danych

Teraz trochę przyjrzysz się zbiorowi danych. Na początku zorientujesz się, jak wyglądają dane. Wyświetlisz część z nich i nauczysz się, jak tokenizować zdania na poszczególne słowa. W przypadku języka angielskiego tokenizacja wydaje się prostym zadaniem – istnieją jednak języki, takie jak japoński, w których granice między słowami nie są tak wyraźne jak w angielskim.

W tym ćwiczeniu masz do dyspozycji dwa zbiory danych: en_text i fr_text. Zbiór en_text zawiera listę zdań w języku angielskim, a fr_text – odpowiadającą im listę zdań w języku francuskim.

Instrukcje

100 XP
  • Napisz funkcję zip(), która przejdzie przez pierwsze 5 zdań z angielskiego zbioru (en_text) i francuskiego zbioru (fr_text).
  • Pobierz pierwsze zdanie angielskie ze zbioru en_text.
  • Stokenizuj uzyskane zdanie za pomocą funkcji split() i znaku spacji, a wynik przypisz do zmiennej first_words.
  • Wyświetl stokenizowane słowa.