Meninjau kembali contamination

Anda memperhatikan bahwa one-class SVM tidak memiliki parameter contamination. Namun, kini Anda tahu bahwa Anda benar-benar memerlukan cara untuk mengendalikan proporsi contoh yang dilabeli sebagai kebaruan agar dapat mengendalikan tingkat positif palsu. Karena itu, Anda memutuskan untuk bereksperimen dengan memberi ambang pada skor. Detektor telah diimpor sebagai onesvm, Anda juga memiliki data X_train, X_test, y_train, y_test, numpy sebagai np, dan confusion_matrix().

Latihan ini merupakan bagian dari kursus

Merancang Alur Kerja Machine Learning di Python

Lihat Kursus

Instruksi latihan

Latih 1-class SVM dan beri skor pada data uji.
Hitung proporsi outlier yang teramati pada data uji.
Gunakan np.quantile() untuk menemukan titik ambang skor guna mencapai proporsi tersebut.
Gunakan ambang itu untuk memberi label pada data uji. Cetak confusion matrix.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Fit a one-class SVM detector and score the test data
nov_det = ____(X_train)
scores = ____(X_test)

# Find the observed proportion of outliers in the test data
prop = np.____(y_test==____)

# Compute the appropriate threshold
threshold = np.____(____, ____)

# Print the confusion matrix for the thresholded scores
print(confusion_matrix(y_test, ____ > ____))

Edit dan Jalankan Kode

Merancang Alur Kerja Machine Learning di Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

Pada bab-bab sebelumnya Anda membangun fondasi yang kuat dalam supervised learning, lengkap dengan pengetahuan menerapkan model di produksi tetapi selalu berasumsi tersedia himpunan data berlabel untuk analisis. Pada bab ini, Anda menghadapi tantangan memodelkan data tanpa label sama sekali, atau dengan sangat sedikit label. Ini membawa Anda ke penelusuran deteksi anomali, sebuah bentuk pemodelan unsupervised, serta pembelajaran berbasis jarak, di mana keyakinan tentang apa yang dianggap kemiripan antara dua contoh dapat digunakan menggantikan label untuk membantu Anda mencapai tingkat akurasi yang sebanding dengan alur kerja supervised. Setelah menyelesaikan bab ini, Anda akan jelas menonjol dari kerumunan data scientist karena tahu dengan yakin alat apa yang digunakan untuk menyesuaikan alur kerja guna mengatasi tantangan dunia nyata yang umum.

Exercise 1: Deteksi anomali Exercise 2: Sebuah outlier sederhana Exercise 3: Kontaminasi LoF Exercise 4: Deteksi kebaruan Exercise 5: Sebuah novelty sederhana Exercise 6: Tiga pendeteksi novelty Exercise 7: Meninjau kembali contamination

Latihan Saat Ini

Exercise 8: Pembelajaran berbasis jarak Exercise 9: Temukan tetangga Exercise 10: Tidak semua metrik sepakat Exercise 11: Data tidak terstruktur Exercise 12: Levenshtein Terbatas Exercise 13: Menggabungkan semuanya Exercise 14: Catatan penutup