MulaiMulai sekarang secara gratis

Train - test split

Pada bab ini, Anda akan terus bekerja dengan himpunan data ANSUR. Sebelum membangun model pada himpunan data Anda, pertama-tama tentukan fitur yang ingin Anda prediksi. Dalam kasus ini, Anda mencoba memprediksi gender.

Anda perlu mengekstrak kolom yang memuat fitur tersebut dari himpunan data, lalu membagi data menjadi himpunan latih dan uji. Himpunan latih akan digunakan untuk melatih model dan himpunan uji akan digunakan untuk memeriksa kinerjanya pada data yang belum pernah dilihat.

ansur_df telah dimuat sebelumnya untuk Anda.

Latihan ini adalah bagian dari kursus

Pengurangan Dimensi dengan Python

Lihat Kursus

Petunjuk latihan

  • Impor fungsi train_test_split dari sklearn.model_selection.
  • Tetapkan kolom 'Gender' ke y.
  • Hapus kolom 'Gender' dari DataFrame dan tetapkan hasilnya ke X.
  • Tetapkan ukuran data uji ke 30% untuk melakukan pembagian 70% data latih dan 30% data uji.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import train_test_split()
from ____.____ import ____

# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]

# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")
Edit dan Jalankan Kode