or
Latihan ini merupakan bagian dari kursus
Pada bab ini, Anda akan diingatkan kembali dasar-dasar alur kerja supervised learning, lengkap dengan pelatihan, penyetelan dan pemilihan model, rekayasa dan seleksi fitur, serta teknik pemisahan data. Anda akan memahami bagaimana langkah-langkah dalam alur kerja saling bergantung, dan mengenali bagaimana semuanya dapat berkontribusi terhadap, atau melawan overfitting: musuh terbesar data scientist. Di akhir bab, Anda akan mahir dalam supervised learning, dan siap menyelami materi yang lebih lanjut pada bab-bab berikutnya.
Pada bab sebelumnya, Anda menyempurnakan pengetahuan tentang alur kerja supervised learning standar. Pada bab ini, Anda akan secara kritis menelaah cara-cara memasukkan pengetahuan ahli ke dalam supervised learning. Hal ini dilakukan melalui penentuan unit analisis yang tepat—yang mungkin memerlukan rekayasa fitur lintas berbagai sumber data—melalui proses pelabelan contoh yang terkadang tidak sempurna, dan melalui penentuan fungsi loss yang menangkap nilai bisnis sebenarnya dari kesalahan yang dibuat oleh model machine learning Anda.
Latihan Saat Ini
Pada bab sebelumnya, Anda menggunakan berbagai cara untuk mengintegrasikan masukan dari para ahli ke dalam alur kerja Anda, dan mengevaluasinya dengan cara yang selaras dengan nilai bisnis. Kini saatnya Anda melatih keterampilan yang diperlukan untuk memproduksi model dan memastikan model terus berkinerja baik setelahnya dengan meningkatkannya secara iteratif. Anda juga akan mempelajari cara mendiagnosis pergeseran himpunan data (dataset shift) dan mengurangi dampak perubahan lingkungan terhadap akurasi model Anda.
Pada bab-bab sebelumnya Anda membangun fondasi yang kuat dalam supervised learning, lengkap dengan pengetahuan menerapkan model di produksi tetapi selalu berasumsi tersedia himpunan data berlabel untuk analisis. Pada bab ini, Anda menghadapi tantangan memodelkan data tanpa label sama sekali, atau dengan sangat sedikit label. Ini membawa Anda ke penelusuran deteksi anomali, sebuah bentuk pemodelan unsupervised, serta pembelajaran berbasis jarak, di mana keyakinan tentang apa yang dianggap kemiripan antara dua contoh dapat digunakan menggantikan label untuk membantu Anda mencapai tingkat akurasi yang sebanding dengan alur kerja supervised. Setelah menyelesaikan bab ini, Anda akan jelas menonjol dari kerumunan data scientist karena tahu dengan yakin alat apa yang digunakan untuk menyesuaikan alur kerja guna mengatasi tantangan dunia nyata yang umum.