Tokenisasi kalimat dengan Keras
Di sini Anda akan langsung berlatih menggunakan Tokenizer Keras. Tokenizer Keras adalah utilitas yang sangat membantu untuk melakukan pemrosesan teks penting hanya dengan beberapa baris kode. Misalnya, Tokenizer Keras secara otomatis memetakan kata-kata dalam kosakata Anda ke ID dengan satu pemanggilan fungsi. Di sini, Anda akan mempelajarinya lebih mendalam.
Anda akan membuat sebuah objek Tokenizer Keras dan melatihnya pada beberapa teks, yang memungkinkan Tokenizer membangun kamus kata dan ID yang sesuai. Teks yang digunakan untuk melatih Tokenizer diperoleh dari Udacity Github Repo.
Latihan ini adalah bagian dari kursus
Penerjemahan Mesin dengan Keras
Petunjuk latihan
- Definisikan sebuah objek Keras Tokenizer.
- Latih tokenizer pada
en_text. - Dapatkan ID kata untuk setiap kata
wdalam daftar berikut["january", "apples", "summer"]. - Cetak kata tersebut beserta ID yang sesuai.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)