Menangani label yang bising

Salah satu analis siber Anda memberi tahu bahwa banyak label untuk 100 komputer sumber pertama dalam data pelatihan mungkin salah karena kesalahan basis data. Ia berharap data tersebut tetap bisa digunakan karena sebagian besar label masih benar, tetapi meminta Anda memperlakukan 100 label ini sebagai "bising". Untungnya Anda tahu cara menanganinya dengan pembelajaran berbobot. Data yang terkontaminasi tersedia di ruang kerja Anda sebagai X_train, X_test, y_train_noisy, y_test. Anda ingin melihat apakah Anda dapat meningkatkan kinerja classifier GaussianNB() dengan pembelajaran berbobot. Anda dapat menggunakan parameter opsional sample_weight, yang didukung oleh metode .fit() pada sebagian besar classifier populer. Fungsi accuracy_score() sudah dimuat. Anda dapat merujuk gambar di bawah ini untuk panduan.

Latihan ini merupakan bagian dari kursus

Merancang Alur Kerja Machine Learning di Python

Lihat Kursus

Instruksi latihan

Latih sebuah instance GaussianNB() pada data pelatihan dengan label yang terkontaminasi.
Laporkan akurasinya pada data uji menggunakan accuracy_score().
Buat bobot yang memberikan bobot dua kali lebih besar pada label ground truth dibandingkan label bising. Ingat bahwa bobot diterapkan pada data pelatihan.
Latih ulang classifier menggunakan bobot di atas dan laporkan akurasinya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Fit a Gaussian Naive Bayes classifier to the training data
clf = ____.____(____, y_train_noisy)

# Report its accuracy on the test data
print(accuracy_score(y_test, ____.____(X_test)))

# Assign half the weight to the first 100 noisy examples
weights = [____]*100 + [1.0]*(len(____)-100)

# Refit using weights and report accuracy. Has it improved?
clf_weights = GaussianNB().fit(X_train, y_train_noisy, ____=____)
print(accuracy_score(y_test, ____))

Edit dan Jalankan Kode

Merancang Alur Kerja Machine Learning di Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

Pada bab-bab sebelumnya Anda membangun fondasi yang kuat dalam supervised learning, lengkap dengan pengetahuan menerapkan model di produksi tetapi selalu berasumsi tersedia himpunan data berlabel untuk analisis. Pada bab ini, Anda menghadapi tantangan memodelkan data tanpa label sama sekali, atau dengan sangat sedikit label. Ini membawa Anda ke penelusuran deteksi anomali, sebuah bentuk pemodelan unsupervised, serta pembelajaran berbasis jarak, di mana keyakinan tentang apa yang dianggap kemiripan antara dua contoh dapat digunakan menggantikan label untuk membantu Anda mencapai tingkat akurasi yang sebanding dengan alur kerja supervised. Setelah menyelesaikan bab ini, Anda akan jelas menonjol dari kerumunan data scientist karena tahu dengan yakin alat apa yang digunakan untuk menyesuaikan alur kerja guna mengatasi tantangan dunia nyata yang umum.

Exercise 1: Deteksi anomali Exercise 2: Sebuah outlier sederhana Exercise 3: Kontaminasi LoF Exercise 4: Deteksi kebaruan Exercise 5: Sebuah novelty sederhana Exercise 6: Tiga pendeteksi novelty Exercise 7: Meninjau kembali contamination Exercise 8: Pembelajaran berbasis jarak Exercise 9: Temukan tetangga Exercise 10: Tidak semua metrik sepakat Exercise 11: Data tidak terstruktur Exercise 12: Levenshtein Terbatas Exercise 13: Menggabungkan semuanya Exercise 14: Catatan penutup