Tokenisasi kalimat dengan Keras

Di sini Anda akan langsung berlatih menggunakan Tokenizer Keras. Tokenizer Keras adalah utilitas yang sangat membantu untuk melakukan pemrosesan teks penting hanya dengan beberapa baris kode. Misalnya, Tokenizer Keras secara otomatis memetakan kata-kata dalam kosakata Anda ke ID dengan satu pemanggilan fungsi. Di sini, Anda akan mempelajarinya lebih mendalam.

Anda akan membuat sebuah objek Tokenizer Keras dan melatihnya pada beberapa teks, yang memungkinkan Tokenizer membangun kamus kata dan ID yang sesuai. Teks yang digunakan untuk melatih Tokenizer diperoleh dari Udacity Github Repo.

Latihan ini merupakan bagian dari kursus

Penerjemahan Mesin dengan Keras

Lihat Kursus

Instruksi latihan

Definisikan sebuah objek Keras Tokenizer.
Latih tokenizer pada en_text.
Dapatkan ID kata untuk setiap kata w dalam daftar berikut ["january", "apples", "summer"].
Cetak kata tersebut beserta ID yang sesuai.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)

Edit dan Jalankan Kode