Bagi data menjadi training dan testing
Sekarang Anda siap membangun model Machine Learning ujung ke ujung dengan mengikuti beberapa langkah sederhana! Anda akan mempelajari nuansa pemodelan secara lebih mendalam di bab-bab berikutnya, tetapi untuk saat ini Anda akan berlatih dan memahami langkah-langkah kunci.
Fitur independen telah dimuat untuk Anda sebagai DataFrame pandas bernama X, dan nilai dependen sebagai Series pandas bernama Y.
Selain itu, fungsi train_test_split telah dimuat dari pustaka sklearn. Anda sekarang akan membuat himpunan data training dan testing, lalu memastikan data telah terbagi dengan benar.
Latihan ini adalah bagian dari kursus
Machine Learning untuk Pemasaran dengan Python
Petunjuk latihan
- Bagi
XdanYmenjadi himpunan latih dan uji dengan 25% data untuk pengujian. - Pastikan himpunan data training hanya memiliki 75% dari data asli.
- Pastikan himpunan data testing hanya memiliki 25% dari data asli.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)
# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])
# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])