Gruplanmış veride özellik çıkarımı

Şimdi önceki egzersizin üzerine, ek bir özellik daha ekleyerek devam edeceksin: her kaynak bilgisayar tarafından kullanılan benzersiz protokol sayısı. Unutma, gruplanmış verilerle bu şekilde özellikler üretmek her zaman mümkündür: başlangıç noktası olarak tüm kategorik sütunlardaki benzersiz öğe sayılarını ve tüm sayısal sütunlardaki ortalamaları alabilirsin. Önceden yüklü flows, doğruluk ölçümü için cross_val_score(), AdaBoostClassifier(), ayrıca pandas (pd) ve numpy (np) mevcut.

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning İş Akışları Tasarlama

Kursa Göz Atın

Egzersiz talimatları

Verilen grup yineleyicisi üzerinde bir lambda fonksiyonu uygula ve her kaynak bilgisayarın kullandığı benzersiz protokol sayısını hesapla. protocol sütununu benzersiz değerlere indirgemek için set() kullanabilirsin.
Sonucu, bir indeks vererek ve sütunu protocol olarak adlandırarak doğru şekle sahip bir veri çerçevesine dönüştür.
Yeni veri çerçevesini, X olarak mevcut olan eski veri çerçevesiyle birleştir.
Bu yeni veri kümesinde AdaBoostClassifier() doğruluğunu cross_val_score() ile değerlendir.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a feature counting unique protocols per source
protocols = flows.groupby('source_computer').apply(
  lambda df: ____)

# Convert this feature into a dataframe, naming the column
protocols_DF = pd.DataFrame(
  protocols, index=____, columns=____)

# Now concatenate this feature with the previous dataset, X
X_more = pd.concat([X, ____], axis=____)

# Refit the classifier and report its accuracy
print(____(____(
  AdaBoostClassifier(), ____, y)))

Kodu Düzenle ve Çalıştır

Python'da Machine Learning İş Akışları Tasarlama

AvançadoNível de habilidade

4.8+

94 reviews

Önceki bölümlerde, üretime model alma bilgisi de dahil olmak üzere denetimli öğrenmede sağlam bir temel attın; ancak analiz için her zaman etiketli bir veri kümesinin mevcut olduğunu varsaydın. Bu bölümde, hiç ya da çok az etiketle veriyi modelleme meydan okumasını üstleneceksin. Bu yolculuk seni, bir tür denetimsiz modelleme olan anomali tespitine ve iki örnek arasındaki benzerliğin ne olduğuna dair inançların etiketlerin yerine kullanılabildiği, denetimli bir iş akışına yakın doğruluk seviyelerine ulaşmana yardım eden mesafe tabanlı öğrenmeye götürecek. Bu bölümü tamamladığında, gerçek dünyadaki yaygın zorlukları aşmak için iş akışını nasıl değiştireceğini kendinden emin bir şekilde bilerek veri bilimcileri arasında net biçimde öne çıkacaksın.

Exercise 1: Anomali tespiti Exercise 2: Basit bir aykırı değer Exercise 3: LoF kirliliği Exercise 4: Yenilik tespiti Exercise 5: Basit bir novelty örneği Exercise 6: Üç yenilik (novelty) algılayıcı Exercise 7: Bulaşma oranına yeniden bakış Exercise 8: Mesafeye dayalı öğrenme Exercise 9: Komşuyu bul Exercise 10: Tüm metrikler aynı fikirde değil Exercise 11: Yapılandırılmamış veri Exercise 12: Kısıtlı Levenshtein Exercise 13: Hepsini bir araya getirme Exercise 14: Kapanış notları