Data yang pernah vs. belum pernah dilihat
Model cenderung memiliki akurasi lebih tinggi pada observasi yang sudah pernah dilihat sebelumnya. Dalam himpunan data permen, memprediksi popularitas Skittles kemungkinan akan lebih akurat dibandingkan memprediksi popularitas Andes Mints; Skittles ada dalam himpunan data, sedangkan Andes Mints tidak.
Anda telah membangun sebuah model berdasarkan 50 permen menggunakan himpunan data X_train dan perlu melaporkan seberapa akurat model dalam memprediksi popularitas 50 permen yang menjadi dasar pembangunan model tersebut, serta 35 permen (X_test) yang belum pernah dilihat model. Anda akan menggunakan mean absolute error, mae(), sebagai metrik akurasi.
Latihan ini merupakan bagian dari kursus
Validasi Model di Python
Instruksi latihan
- Dengan menggunakan
X_traindanX_testsebagai data masukan, buat array prediksi menggunakanmodel.predict(). - Hitung akurasi model pada data yang sudah pernah dilihat model dan data yang belum pernah dilihat sebelumnya.
- Gunakan pernyataan print untuk menampilkan data yang pernah dan belum pernah dilihat.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# The model is fit using X_train and y_train
model.fit(X_train, y_train)
# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)
# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)
# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))