Bagian 1: Menjelajahi himpunan data

Sekarang Anda akan menjelajahi himpunan data sedikit. Pertama, Anda akan melihat seperti apa bentuk datanya. Anda akan mencetak sebagian data dan mempelajari cara melakukan tokenisasi kalimat dalam data menjadi kata-kata individual. Untuk bahasa Inggris, tokenisasi tampak seperti tugas sepele; namun, ada bahasa seperti bahasa Jepang yang tidak memiliki pemisah yang sekonsisten bahasa Inggris.

Untuk latihan ini, Anda disediakan dua himpunan data: en_text dan fr_text. en_text berisi daftar kalimat bahasa Inggris, sedangkan fr_text berisi daftar kalimat bahasa Prancis yang bersesuaian.

Latihan ini adalah bagian dari kursus

Penerjemahan Mesin dengan Keras

Lihat Kursus

Petunjuk latihan

Tulis fungsi zip() yang mengiterasi melalui 5 kalimat pertama dari kalimat bahasa Inggris (en_text) dan bahasa Prancis (fr_text).
Ambil kalimat bahasa Inggris pertama dari en_text.
Tokenisasikan kalimat tersebut menggunakan fungsi split() dengan karakter spasi dan simpan ke first_words.
Cetak kata-kata yang telah ditokenisasi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)

Edit dan Jalankan Kode