Tokenizacja zdań w Keras

W tym ćwiczeniu poznasz w praktyce obiekt Tokenizer z biblioteki Keras. To bardzo przydatne narzędzie, które pozwala wykonać kluczowe operacje na tekście zaledwie kilkoma liniami kodu. Na przykład Tokenizer automatycznie przypisuje słowom ze słownika odpowiadające im identyfikatory – wystarczy jedno wywołanie funkcji. Tutaj przyjrzysz się temu mechanizmowi dokładniej.

Utworzysz obiekt Tokenizer i dopasujesz go do przykładowego tekstu. Dzięki temu Tokenizer zbuduje słownik słów wraz z odpowiadającymi im identyfikatorami. Tekst użyty do trenowania Tokenizera pochodzi z repozytorium Udacity na GitHubie.

Zdefiniuj obiekt Tokenizer z biblioteki Keras.
Dopasuj tokenizer do danych en_text.
Pobierz identyfikator każdego słowa w z podanej listy ["january", "apples", "summer"].
Wypisz słowo oraz jego odpowiadający identyfikator.

ćwiczenie

Tokenizacja zdań w Keras

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie