Bagian 1: Menjelajahi himpunan data
Sekarang Anda akan menjelajahi himpunan data sedikit. Pertama, Anda akan melihat seperti apa bentuk datanya. Anda akan mencetak sebagian data dan mempelajari cara melakukan tokenisasi kalimat dalam data menjadi kata-kata individual. Untuk bahasa Inggris, tokenisasi tampak seperti tugas sepele; namun, ada bahasa seperti bahasa Jepang yang tidak memiliki pemisah yang sekonsisten bahasa Inggris.
Untuk latihan ini, Anda disediakan dua himpunan data: en_text dan fr_text. en_text berisi daftar kalimat bahasa Inggris, sedangkan fr_text berisi daftar kalimat bahasa Prancis yang bersesuaian.
Latihan ini adalah bagian dari kursus
Penerjemahan Mesin dengan Keras
Petunjuk latihan
- Tulis fungsi
zip()yang mengiterasi melalui 5 kalimat pertama dari kalimat bahasa Inggris (en_text) dan bahasa Prancis (fr_text). - Ambil kalimat bahasa Inggris pertama dari
en_text. - Tokenisasikan kalimat tersebut menggunakan fungsi
split()dengan karakter spasi dan simpan kefirst_words. - Cetak kata-kata yang telah ditokenisasi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):
print("English: ", en_sent)
print("\tFrench: ", fr_sent)
# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)