Train - test split
Pada bab ini, Anda akan terus bekerja dengan himpunan data ANSUR. Sebelum membangun model pada himpunan data Anda, pertama-tama tentukan fitur yang ingin Anda prediksi. Dalam kasus ini, Anda mencoba memprediksi gender.
Anda perlu mengekstrak kolom yang memuat fitur tersebut dari himpunan data, lalu membagi data menjadi himpunan latih dan uji. Himpunan latih akan digunakan untuk melatih model dan himpunan uji akan digunakan untuk memeriksa kinerjanya pada data yang belum pernah dilihat.
ansur_df telah dimuat sebelumnya untuk Anda.
Latihan ini adalah bagian dari kursus
Pengurangan Dimensi dengan Python
Petunjuk latihan
- Impor fungsi
train_test_splitdarisklearn.model_selection. - Tetapkan kolom
'Gender'ke y. - Hapus kolom
'Gender'dari DataFrame dan tetapkan hasilnya keX. - Tetapkan ukuran data uji ke 30% untuk melakukan pembagian 70% data latih dan 30% data uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import train_test_split()
from ____.____ import ____
# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]
# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")