MulaiMulai sekarang secara gratis

Cross validation

Pada beberapa latihan berikutnya, Anda akan menyetel model regresi logistik menggunakan prosedur bernama k-fold cross validation. Ini adalah metode untuk memperkirakan kinerja model pada data yang belum pernah dilihat (seperti DataFrame test Anda).

Metode ini bekerja dengan membagi data pelatihan menjadi beberapa partisi. Jumlah pastinya terserah Anda, tetapi dalam kursus ini Anda akan menggunakan nilai bawaan PySpark yaitu tiga. Setelah data dipecah, salah satu partisi disisihkan, dan model dilatih pada partisi lainnya. Kemudian galat diukur terhadap partisi yang disisihkan. Proses ini diulangi untuk setiap partisi, sehingga setiap blok data disisihkan dan digunakan sebagai himpunan uji tepat satu kali. Lalu galat pada masing-masing partisi dirata-ratakan. Ini disebut cross validation error dari model, dan merupakan perkiraan yang baik dari galat aktual pada data yang disisihkan.

Anda akan menggunakan cross validation untuk memilih hyperparameter dengan membuat kisi pasangan nilai yang mungkin untuk dua hyperparameter, elasticNetParam dan regParam, dan menggunakan cross validation error untuk membandingkan semua model yang berbeda agar Anda dapat memilih yang terbaik!

Apa yang dapat Anda perkirakan dengan cross validation?

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga