1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tłumaczenie maszynowe z Keras

Connected

ćwiczenie

Tokenizacja zdań w Keras

W tym ćwiczeniu poznasz w praktyce obiekt Tokenizer z biblioteki Keras. To bardzo przydatne narzędzie, które pozwala wykonać kluczowe operacje na tekście zaledwie kilkoma liniami kodu. Na przykład Tokenizer automatycznie przypisuje słowom ze słownika odpowiadające im identyfikatory – wystarczy jedno wywołanie funkcji. Tutaj przyjrzysz się temu mechanizmowi dokładniej.

Utworzysz obiekt Tokenizer i dopasujesz go do przykładowego tekstu. Dzięki temu Tokenizer zbuduje słownik słów wraz z odpowiadającymi im identyfikatorami. Tekst użyty do trenowania Tokenizera pochodzi z repozytorium Udacity na GitHubie.

Instrukcje

100 XP
  • Zdefiniuj obiekt Tokenizer z biblioteki Keras.
  • Dopasuj tokenizer do danych en_text.
  • Pobierz identyfikator każdego słowa w z podanej listy ["january", "apples", "summer"].
  • Wypisz słowo oraz jego odpowiadający identyfikator.