Data yang pernah vs. belum pernah dilihat

Model cenderung memiliki akurasi lebih tinggi pada observasi yang sudah pernah dilihat sebelumnya. Dalam himpunan data permen, memprediksi popularitas Skittles kemungkinan akan lebih akurat dibandingkan memprediksi popularitas Andes Mints; Skittles ada dalam himpunan data, sedangkan Andes Mints tidak.

Anda telah membangun sebuah model berdasarkan 50 permen menggunakan himpunan data X_train dan perlu melaporkan seberapa akurat model dalam memprediksi popularitas 50 permen yang menjadi dasar pembangunan model tersebut, serta 35 permen (X_test) yang belum pernah dilihat model. Anda akan menggunakan mean absolute error, mae(), sebagai metrik akurasi.

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

Instruksi latihan

Dengan menggunakan X_train dan X_test sebagai data masukan, buat array prediksi menggunakan model.predict().
Hitung akurasi model pada data yang sudah pernah dilihat model dan data yang belum pernah dilihat sebelumnya.
Gunakan pernyataan print untuk menampilkan data yang pernah dan belum pernah dilihat.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# The model is fit using X_train and y_train
model.fit(X_train, y_train)

# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)

# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)

# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Sebelum kita dapat memvalidasi model, kita perlu memahami cara membuat dan menggunakannya. Bab ini memberikan pengantar untuk menjalankan model regresi dan klasifikasi di scikit-learn. Landasan pembangunan model ini akan kita gunakan di seluruh bab berikutnya.

Exercise 1: Pengantar validasi model Exercise 2: Langkah-langkah pemodelan Exercise 3: Data yang pernah vs. belum pernah dilihat

Latihan Saat Ini

Exercise 4: Model regresi Exercise 5: Atur parameter dan latih model Exercise 6: Tingkat kepentingan fitur Exercise 7: Model klasifikasi Exercise 8: Prediksi klasifikasi Exercise 9: Menggunakan kembali parameter model Exercise 10: Klasifikator random forest

Bab ini berfokus pada dasar-dasar validasi model. Mulai dari membagi data menjadi himpunan data pelatihan, validasi, dan pengujian, hingga membangun pemahaman tentang trade-off bias-varian, kita membangun fondasi untuk teknik validasi K-Fold dan Leave-One-Out yang dipraktikkan di bab tiga.

Exercise 1: Membuat himpunan data train, test, dan validation Exercise 2: Buat satu holdout set Exercise 3: Buat dua himpunan holdout Exercise 4: Mengapa menggunakan holdout set Exercise 5: Metrik akurasi: model regresi Exercise 6: Mean absolute error Exercise 7: Mean squared error Exercise 8: Kinerja pada subset data Exercise 9: Metrik klasifikasi Exercise 10: Confusion matrix Exercise 11: Matriks kebingungan, lagi Exercise 12: Precision vs. recall Exercise 13: Pertukaran bias-varians Exercise 14: Galat akibat under/overfitting Exercise 15: Apakah saya underfitting?

Holdout set merupakan awal yang baik untuk validasi model. Namun, menggunakan satu set latih dan uji saja sering kali tidak cukup. Cross-validation dianggap sebagai standar emas dalam memvalidasi kinerja model dan hampir selalu digunakan saat menala hyper-parameter model. Bab ini berfokus pada melakukan cross-validation untuk memvalidasi kinerja model.

Exercise 1: Masalah pada holdout set Exercise 2: Dua sampel Exercise 3: Potensi masalah Exercise 4: Cross-validation Exercise 5: KFold() di scikit-learn Exercise 6: Menggunakan indeks KFold Exercise 7: cross_val_score() dari sklearn Exercise 8: Metode-metode scikit-learn Exercise 9: Menerapkan cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Kapan menggunakan LOOCV Exercise 12: Leave-one-out-cross-validation

Tiga bab pertama berfokus pada teknik validasi model. Pada bab 4 kita menerapkan teknik-teknik ini, khususnya cross-validation, sambil mempelajari penalaan hyperparameter. Pada akhirnya, validasi model memungkinkan proses penalaan dan membantu kita memilih model terbaik secara keseluruhan.

Exercise 1: Pengantar hyperparameter tuning Exercise 2: Membuat Hyperparameter Exercise 3: Menjalankan model menggunakan rentang Exercise 4: RandomizedSearchCV Exercise 5: Mempersiapkan RandomizedSearch Exercise 6: Menerapkan RandomizedSearchCV Exercise 7: Memilih model final Anda Exercise 8: Akurasi klasifikasi terbaik Exercise 9: Memilih model precision terbaik Exercise 10: Kursus selesai!