1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Biến heuristic thành bộ phân loại

Bạn khá bất ngờ khi thấy các heuristic lại hữu ích đến vậy. Vì thế, bạn quyết định xem heuristic "quá nhiều cổng (port) duy nhất là đáng ngờ" như một bộ phân loại độc lập. Bạn thực hiện điều đó bằng cách đặt ngưỡng cho số lượng cổng duy nhất trên mỗi nguồn dựa trên số trung bình được dùng ở các máy nguồn xấu — đây là các máy có nhãn True. Bộ dữ liệu đã được nạp sẵn và chia thành huấn luyện và kiểm tra, nên bạn đã có các đối tượng X_train, X_test, y_train và y_test trong bộ nhớ. Bạn cũng đã import accuracy_score() và numpy với bí danh np. Lưu ý: trong bài này bạn sẽ không huấn luyện một bộ phân loại từ scikit-learn, mà sẽ tự định nghĩa quy tắc phân loại của riêng bạn một cách tường minh!

Hướng dẫn

100 XP
  • Chọn tất cả các host xấu từ X_train để tạo tập dữ liệu mới X_train_bad. Lưu ý y_train là một mảng Boolean.
  • Tính trung bình cột unique_ports cho các host xấu và lưu vào avg_bad_ports.
  • Xem xét một bộ phân loại dự đoán dương tính cho mọi ví dụ có unique_ports vượt quá avg_bad_ports. Lưu dự đoán của bộ phân loại này trên dữ liệu kiểm tra vào biến mới pred_port.
  • Tính độ chính xác của bộ phân loại này trên dữ liệu kiểm tra bằng accuracy_score().