Membagi data pelatihan dan validasi

Anda akan membuat himpunan data pelatihan dan validasi. Menyimpan himpunan data validasi dan memantau kinerja model pada himpunan tersebut adalah praktik yang baik untuk menghindari overfitting.

Untuk latihan ini, Anda telah disediakan en_text (kalimat bahasa Inggris) dan fr_text (kalimat bahasa Prancis).

Latihan ini merupakan bagian dari kursus

Penerjemahan Mesin dengan Keras

Lihat Kursus

Instruksi latihan

Definisikan deret indeks menggunakan np.arange() yang dimulai dari 0 dan memiliki ukuran sebesar en_text.
Definisikan train_inds sebagai train_size indeks pertama dari deret indeks tersebut.
Definisikan tr_en dan tf_fr, yang berisi kalimat pada indeks yang ditentukan oleh train_inds dalam list en_text dan fr_text.
Definisikan v_en dan v_fr yang berisi kalimat pada indeks yang ditentukan oleh valid_inds dalam list en_text dan fr_text.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

train_size, valid_size = 800, 200
# Define a sequence of indices from 0 to size of en_text
inds = np.____(len(____))
np.random.shuffle(inds)
# Define train_inds as first train_size indices
train_inds = inds[:____]
valid_inds = inds[train_size:train_size+valid_size]
# Define tr_en (train EN sentences) and tr_fr (train FR sentences)
tr_en = [en_text[ti] for ti in ____]
tr_fr = [____[____] for ti in ____]
# Define v_en (valid EN sentences) and v_fr (valid FR sentences)
v_en = [en_text[____] for vi in ____]
v_fr = [____[____] for vi in ____]
print('Training (EN):\n', tr_en[:3], '\nTraining (FR):\n', tr_fr[:3])
print('\nValid (EN):\n', v_en[:3], '\nValid (FR):\n', v_fr[:3])

Edit dan Jalankan Kode