Kaynak mı kötü, hedef mi?

Önceki derste, ilgi nesnen olarak hedef bilgisayarı (destination) kullanmıştın. Ancak siber güvenlik analistin, kötü trafiği üretenlerin enfekte makineler olduğunu ve bu yüzden flows veri kümesinde hedef değil, kaynak (source) olarak görüneceklerini söyledi.

flows verisi, enfekte kimliklerin bad listesi ve önceki dersten özellik çıkarıcı featurizer() önceden yüklendi. Ayrıca numpy np takma adıyla, AdaBoostClassifier() ve cross_val_score() da hazır.

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning İş Akışları Tasarlama

Kursa Göz Atın

Egzersiz talimatları

flows veri kümesinde kaynak bilgisayar kimliğine göre gruplayıp özellik çıkarıcıyı her gruba uygulayarak, her satırı bir source_computer için özellik vektörü olan bir veri çerçevesi oluştur.
Yineleyiciyi üzerinde list() çağırarak bir veri çerçevesine dönüştür.
Verilen kötü kimlikler listesinde olup olmadığını kontrol ederek her source_computer kimliği için etiketleri oluştur.
Bu veride AdaBoostClassifier() modelini cross_val_score() ile değerlendir.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Group by source computer, and apply the feature extractor
out = flows.____('source_computer').____(featurize)

# Convert the iterator to a dataframe by calling list on it
X = pd.DataFrame(____, index=____)

# Check which sources in X.index are bad to create labels
y = [x in bads for x in ____]

# Report the average accuracy of Adaboost over 3-fold CV
print(np.mean(____(____, X, y)))

Kodu Düzenle ve Çalıştır

Python'da Machine Learning İş Akışları Tasarlama

AvançadoNível de habilidade

4.8+

94 reviews

Önceki bölümlerde, üretime model alma bilgisi de dahil olmak üzere denetimli öğrenmede sağlam bir temel attın; ancak analiz için her zaman etiketli bir veri kümesinin mevcut olduğunu varsaydın. Bu bölümde, hiç ya da çok az etiketle veriyi modelleme meydan okumasını üstleneceksin. Bu yolculuk seni, bir tür denetimsiz modelleme olan anomali tespitine ve iki örnek arasındaki benzerliğin ne olduğuna dair inançların etiketlerin yerine kullanılabildiği, denetimli bir iş akışına yakın doğruluk seviyelerine ulaşmana yardım eden mesafe tabanlı öğrenmeye götürecek. Bu bölümü tamamladığında, gerçek dünyadaki yaygın zorlukları aşmak için iş akışını nasıl değiştireceğini kendinden emin bir şekilde bilerek veri bilimcileri arasında net biçimde öne çıkacaksın.

Exercise 1: Anomali tespiti Exercise 2: Basit bir aykırı değer Exercise 3: LoF kirliliği Exercise 4: Yenilik tespiti Exercise 5: Basit bir novelty örneği Exercise 6: Üç yenilik (novelty) algılayıcı Exercise 7: Bulaşma oranına yeniden bakış Exercise 8: Mesafeye dayalı öğrenme Exercise 9: Komşuyu bul Exercise 10: Tüm metrikler aynı fikirde değil Exercise 11: Yapılandırılmamış veri Exercise 12: Kısıtlı Levenshtein Exercise 13: Hepsini bir araya getirme Exercise 14: Kapanış notları