Etiket gürültüsüyle başa çıkma

Siber analistlerinden biri, eğitim verilerindeki ilk 100 kaynak bilgisayarın etiketlerinin çoğunun bir veritabanı hatası nedeniyle yanlış olabileceğini söylüyor. Yine de verilerin kullanılabileceğini, çünkü etiketlerin çoğunun doğru kaldığını umuyor; ama bu 100 etiketi “gürültülü” olarak ele almanı istiyor. Neyse ki, ağırlıklı öğrenmeyi kullanarak bunu nasıl yapacağını biliyorsun. Kirlenmiş veri çalışma alanında X_train, X_test, y_train_noisy, y_test olarak mevcut. Ağırlıklı öğrenmeyi kullanarak bir GaussianNB() sınıflandırıcısının performansını iyileştirip iyileştiremeyeceğine bakmak istiyorsun. Çoğu popüler sınıflandırıcının .fit() metodunda desteklenen isteğe bağlı sample_weight parametresini kullanabilirsin. accuracy_score() fonksiyonu önceden yüklendi. Yol göstermek için aşağıdaki görseli inceleyebilirsin.

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning İş Akışları Tasarlama

Kursa Göz Atın

Egzersiz talimatları

Kirlenmiş etiketlerle eğitim verisine bir GaussianNB() örneği uydur (fit et).
accuracy_score() kullanarak test verisi üzerindeki doğruluğunu raporla.
Gerçek (ground truth) etiketlere, gürültülü etiketlere göre iki kat ağırlık veren ağırlıklar oluştur. Unutma: ağırlıklar eğitim verisi içindir.
Sınıflandırıcıyı bu ağırlıkları kullanarak yeniden eğit ve doğruluğunu raporla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Fit a Gaussian Naive Bayes classifier to the training data
clf = ____.____(____, y_train_noisy)

# Report its accuracy on the test data
print(accuracy_score(y_test, ____.____(X_test)))

# Assign half the weight to the first 100 noisy examples
weights = [____]*100 + [1.0]*(len(____)-100)

# Refit using weights and report accuracy. Has it improved?
clf_weights = GaussianNB().fit(X_train, y_train_noisy, ____=____)
print(accuracy_score(y_test, ____))

Kodu Düzenle ve Çalıştır

Python'da Machine Learning İş Akışları Tasarlama

AvançadoNível de habilidade

4.8+

94 reviews

Önceki bölümlerde, üretime model alma bilgisi de dahil olmak üzere denetimli öğrenmede sağlam bir temel attın; ancak analiz için her zaman etiketli bir veri kümesinin mevcut olduğunu varsaydın. Bu bölümde, hiç ya da çok az etiketle veriyi modelleme meydan okumasını üstleneceksin. Bu yolculuk seni, bir tür denetimsiz modelleme olan anomali tespitine ve iki örnek arasındaki benzerliğin ne olduğuna dair inançların etiketlerin yerine kullanılabildiği, denetimli bir iş akışına yakın doğruluk seviyelerine ulaşmana yardım eden mesafe tabanlı öğrenmeye götürecek. Bu bölümü tamamladığında, gerçek dünyadaki yaygın zorlukları aşmak için iş akışını nasıl değiştireceğini kendinden emin bir şekilde bilerek veri bilimcileri arasında net biçimde öne çıkacaksın.

Exercise 1: Anomali tespiti Exercise 2: Basit bir aykırı değer Exercise 3: LoF kirliliği Exercise 4: Yenilik tespiti Exercise 5: Basit bir novelty örneği Exercise 6: Üç yenilik (novelty) algılayıcı Exercise 7: Bulaşma oranına yeniden bakış Exercise 8: Mesafeye dayalı öğrenme Exercise 9: Komşuyu bul Exercise 10: Tüm metrikler aynı fikirde değil Exercise 11: Yapılandırılmamış veri Exercise 12: Kısıtlı Levenshtein Exercise 13: Hepsini bir araya getirme Exercise 14: Kapanış notları