1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Nguồn hay đích mới là máy bị nhiễm?

Trong bài trước, bạn dùng máy tính ở vai trò đích làm thực thể quan tâm. Tuy nhiên, chuyên gia an ninh mạng vừa cho biết chính các máy bị nhiễm mới tạo ra lưu lượng xấu và vì vậy sẽ xuất hiện như nguồn, không phải đích, trong tập dữ liệu flows.

Dữ liệu flows đã được nạp sẵn, cùng với danh sách bad các ID bị nhiễm và bộ trích xuất đặc trưng featurizer() từ bài trước. Bạn cũng có numpy dưới tên np, AdaBoostClassifier(), và cross_val_score().

Hướng dẫn

100 XP
  • Tạo một data frame trong đó mỗi hàng là một vector đặc trưng cho một source_computer. Nhóm theo ID máy nguồn trong tập flows và áp dụng bộ trích xuất đặc trưng cho từng nhóm.
  • Chuyển iterator thành data frame bằng cách gọi list() trên nó.
  • Tạo nhãn bằng cách kiểm tra xem mỗi ID source_computer có thuộc danh sách các máy xấu đã cho hay không.
  • Đánh giá một AdaBoostClassifier() trên dữ liệu này bằng cross_val_score().