1. Nauka
  2. /
  3. Kursy
  4. /
  5. Projektowanie przepływów pracy uczenia maszynowego w Pythonie

Connected

ćwiczenie

Źródło czy cel – co jest zainfekowane?

W poprzedniej lekcji jako jednostkę analizy przyjmowano komputer docelowy. Tymczasem analityk ds. cyberbezpieczeństwa właśnie poinformował cię, że zainfekowane maszyny same generują podejrzany ruch – w zbiorze danych flows będą więc widoczne jako źródło, a nie cel.

Dane flows zostały wstępnie załadowane, podobnie jak lista bad zawierająca identyfikatory zainfekowanych maszyn oraz ekstraktor cech featurizer() z poprzedniej lekcji. Do dyspozycji masz również numpy jako np, AdaBoostClassifier() i cross_val_score().

Instrukcje

100 XP
  • Utwórz ramkę danych, w której każdy wiersz jest wektorem cech dla komputera source_computer. Pogrupuj dane ze zbioru flows według identyfikatora komputera źródłowego i zastosuj ekstraktor cech do każdej grupy.
  • Przekształć iterator w ramkę danych, wywołując na nim funkcję list().
  • Utwórz etykiety, sprawdzając, czy identyfikator każdego source_computer należy do dostarczonej listy bad.
  • Oceń działanie AdaBoostClassifier() na tych danych, używając cross_val_score().