휴리스틱을 분류기로 바꾸기

휴리스틱이 이렇게까지 유용할 수 있다는 사실이 놀랍네요. 그래서 "고유 포트 수가 너무 많으면 수상하다"는 휴리스틱을 자체 분류기로 취급해 보려 합니다. 이를 위해, 소스별 고유 포트 수를 임계값으로 이진화하는데, 임계값은 나쁜 소스 컴퓨터(라벨이 True인 컴퓨터)에서 사용된 고유 포트 수의 평균으로 정합니다. 데이터셋은 이미 로드되어 학습용과 테스트용으로 분할되어 있으므로, 메모리에 X_train, X_test, y_train, y_test가 준비되어 있어요. 또한 accuracy_score()와 numpy는 np로 임포트되어 있습니다. 참고로, 이번 연습에서는 scikit-learn의 분류기를 학습시키지 않고, 여러분만의 분류 규칙을 명시적으로 정의해 적용할 거예요!

X_train에서 모든 나쁜 호스트만 골라 새 데이터셋 X_train_bad를 만드세요. y_train은 불리언 배열임에 유의하세요.
나쁜 호스트의 unique_ports 열 평균을 계산해 avg_bad_ports에 저장하세요.
이제 unique_ports가 avg_bad_ports를 초과하는 모든 예시를 양성으로 예측하는 분류기를 생각해 봅시다. 이 분류기의 테스트 데이터 예측을 새 변수 pred_port에 저장하세요.
accuracy_score()를 사용해 이 분류기의 테스트 데이터 정확도를 계산하세요.

연습 문제

휴리스틱을 분류기로 바꾸기

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제