Akurasi setelah reduksi dimensi
Anda akan mengurangi overfit dengan bantuan reduksi dimensi. Dalam kasus ini, Anda akan menerapkan bentuk reduksi dimensi yang cukup drastis dengan hanya memilih satu kolom yang memiliki informasi baik untuk membedakan jenis kelamin. Anda akan mengulangi langkah pemisahan train-test, pelatihan model, dan prediksi untuk membandingkan akurasi pada data uji versus data latih.
Semua paket yang relevan dan y telah dimuat sebelumnya.
Latihan ini adalah bagian dari kursus
Pengurangan Dimensi dengan Python
Petunjuk latihan
- Pilih hanya kolom lingkar leher (
'neckcircumferencebase') dariansur_df. - Bagi data, instansiasi sebuah classifier, dan latih modelnya. Ini telah disiapkan untuk Anda.
- Sekali lagi hitung skor akurasi pada set pelatihan dan set uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]
# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)
# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))
print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")