Bir sezgiyi sınıflayıcıya dönüştürmek

Sezgilerin bu kadar yararlı olmasına şaşırdın. Bu yüzden “çok fazla benzersiz port şüphelidir” sezgisini başlı başına bir sınıflayıcı olarak ele almaya karar veriyorsun. Bunu, kaynak başına benzersiz port sayısını kötü kaynak bilgisayarlarda kullanılan ortalama sayıya göre eşikleyerek yapacaksın — burada etiketin True olduğu bilgisayarlar kastediliyor. Veri kümesi önceden yüklenmiş ve eğitim-test olarak bölünmüş durumda; bellekte X_train, X_test, y_train ve y_test var. İçe aktarımlarında accuracy_score() ve numpy np olarak mevcut. Açıklık getirmek için: Bu egzersizde scikit-learn'den bir sınıflandırıcı eğitmeyeceksin; bunun yerine kendi sınıflandırma kuralını açıkça tanımlayacaksın!

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning İş Akışları Tasarlama

Kursa Göz Atın

Egzersiz talimatları

X_train içinden tüm kötü host'ları alt-seçimle al ve yeni bir veri kümesi X_train_bad oluştur. y_train'in Boolean bir dizi olduğunu unutma.
Kötü host'lar için unique_ports sütununun ortalamasını hesapla ve avg_bad_ports içinde sakla.
Şimdi, unique_ports değeri avg_bad_ports değerini aşan her örneği pozitif tahmin eden bir sınıflayıcıyı düşün. Bu sınıflayıcının test verisi üzerindeki tahminlerini pred_port adlı yeni bir değişkende kaydet.
Bu sınıflayıcının test verisi üzerindeki doğruluğunu accuracy_score() kullanarak hesapla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a new dataset X_train_bad by subselecting bad hosts
X_train_bad = ____[____]

# Calculate the average of unique_ports in bad examples
avg_bad_ports = np.____(____['unique_ports'])

# Label as positive sources that use more ports than that
pred_port = ____['unique_ports'] > ____

# Print the accuracy of the heuristic
print(____(y_test, ____))

Kodu Düzenle ve Çalıştır

Python'da Machine Learning İş Akışları Tasarlama

AvançadoNível de habilidade

4.8+

94 reviews

Önceki bölümlerde, üretime model alma bilgisi de dahil olmak üzere denetimli öğrenmede sağlam bir temel attın; ancak analiz için her zaman etiketli bir veri kümesinin mevcut olduğunu varsaydın. Bu bölümde, hiç ya da çok az etiketle veriyi modelleme meydan okumasını üstleneceksin. Bu yolculuk seni, bir tür denetimsiz modelleme olan anomali tespitine ve iki örnek arasındaki benzerliğin ne olduğuna dair inançların etiketlerin yerine kullanılabildiği, denetimli bir iş akışına yakın doğruluk seviyelerine ulaşmana yardım eden mesafe tabanlı öğrenmeye götürecek. Bu bölümü tamamladığında, gerçek dünyadaki yaygın zorlukları aşmak için iş akışını nasıl değiştireceğini kendinden emin bir şekilde bilerek veri bilimcileri arasında net biçimde öne çıkacaksın.

Exercise 1: Anomali tespiti Exercise 2: Basit bir aykırı değer Exercise 3: LoF kirliliği Exercise 4: Yenilik tespiti Exercise 5: Basit bir novelty örneği Exercise 6: Üç yenilik (novelty) algılayıcı Exercise 7: Bulaşma oranına yeniden bakış Exercise 8: Mesafeye dayalı öğrenme Exercise 9: Komşuyu bul Exercise 10: Tüm metrikler aynı fikirde değil Exercise 11: Yapılandırılmamış veri Exercise 12: Kısıtlı Levenshtein Exercise 13: Hepsini bir araya getirme Exercise 14: Kapanış notları