Membagi data pelatihan dan validasi
Anda akan membuat himpunan data pelatihan dan validasi. Menyimpan himpunan data validasi dan memantau kinerja model pada himpunan tersebut adalah praktik yang baik untuk menghindari overfitting.
Untuk latihan ini, Anda telah disediakan en_text (kalimat bahasa Inggris) dan fr_text (kalimat bahasa Prancis).
Latihan ini adalah bagian dari kursus
Penerjemahan Mesin dengan Keras
Petunjuk latihan
- Definisikan deret indeks menggunakan
np.arange()yang dimulai dari 0 dan memiliki ukuran sebesaren_text. - Definisikan
train_indssebagaitrain_sizeindeks pertama dari deret indeks tersebut. - Definisikan
tr_endantf_fr, yang berisi kalimat pada indeks yang ditentukan olehtrain_indsdalam listen_textdanfr_text. - Definisikan
v_endanv_fryang berisi kalimat pada indeks yang ditentukan olehvalid_indsdalam listen_textdanfr_text.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
train_size, valid_size = 800, 200
# Define a sequence of indices from 0 to size of en_text
inds = np.____(len(____))
np.random.shuffle(inds)
# Define train_inds as first train_size indices
train_inds = inds[:____]
valid_inds = inds[train_size:train_size+valid_size]
# Define tr_en (train EN sentences) and tr_fr (train FR sentences)
tr_en = [en_text[ti] for ti in ____]
tr_fr = [____[____] for ti in ____]
# Define v_en (valid EN sentences) and v_fr (valid FR sentences)
v_en = [en_text[____] for vi in ____]
v_fr = [____[____] for vi in ____]
print('Training (EN):\n', tr_en[:3], '\nTraining (FR):\n', tr_fr[:3])
print('\nValid (EN):\n', v_en[:3], '\nValid (FR):\n', v_fr[:3])