1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Kỹ thuật đặc trưng trên dữ liệu đã nhóm

Bây giờ bạn sẽ tiếp nối bài tập trước bằng cách xét thêm một đặc trưng: số lượng giao thức (protocol) duy nhất được dùng bởi mỗi máy tính nguồn. Lưu ý rằng với dữ liệu đã nhóm, bạn luôn có thể xây dựng đặc trưng theo cách này: lấy số phần tử duy nhất của tất cả các cột phân loại, và giá trị trung bình của tất cả các cột số làm điểm xuất phát. Như trước đó, bạn đã có flows được nạp sẵn, cross_val_score() để đo độ chính xác, AdaBoostClassifier(), pandas là pd và numpy là np.

Hướng dẫn

100 XP
  • Áp dụng một hàm lambda trên iterator của nhóm được cung cấp để tính số giao thức duy nhất được mỗi máy tính nguồn sử dụng. Bạn có thể dùng set() để rút gọn cột protocol thành một tập các giá trị duy nhất.
  • Chuyển kết quả thành một data frame với hình dạng đúng bằng cách cung cấp index và đặt tên cột là protocol.
  • Nối data frame mới với data frame cũ, đang có sẵn dưới tên X.
  • Đánh giá độ chính xác của AdaBoostClassifier() trên bộ dữ liệu mới này bằng cross_val_score().