MulaiMulai sekarang secara gratis

Test vs. Train

Setelah Anda membersihkan data dan menyiapkannya untuk pemodelan, salah satu langkah terpenting adalah membagi data menjadi test set dan train set. Setelah itu, jangan sentuh data uji Anda sampai Anda yakin memiliki model yang bagus! Saat membangun model dan menyusun hipotesis, Anda dapat mengujinya pada data latih untuk mendapatkan gambaran tentang performanya.

Setelah Anda mendapatkan model favorit, Anda dapat melihat seberapa baik model tersebut memprediksi data baru dalam himpunan data uji. Data yang belum pernah dilihat ini akan memberi Anda gambaran yang jauh lebih realistis tentang performa model di dunia nyata saat Anda mencoba memprediksi atau mengklasifikasikan data baru.

Di Spark, penting untuk memastikan Anda membagi data setelah semua transformasi. Ini karena operasi seperti StringIndexer tidak selalu menghasilkan indeks yang sama meskipun diberikan daftar string yang sama.

Mengapa penting menggunakan himpunan data uji dalam evaluasi model?

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga