Combinando heurísticas

Um(a) analista de cibersegurança diferente diz que, em certos tipos de ataque, o computador de origem infectado envia pequenos pedaços de tráfego para evitar detecção. Isso faz você pensar se não seria melhor criar uma heurística combinada que analise simultaneamente um grande número de portas e tamanhos de pacotes pequenos. Isso melhora o desempenho em relação à heurística simples de portas? Como no último exercício, você tem X_train, X_test, y_train e y_test em memória. O código de exemplo também ajuda você a reproduzir o resultado da heurística de portas, pred_port. Você também tem numpy como np e accuracy_score() pré-carregados.

Este exercício faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercício

A coluna average_packet calcula o tamanho médio do pacote em todos os fluxos observados a partir de uma única origem. Tire a média desses valores apenas para as origens maliciosas no conjunto de treino.
Agora, construa uma nova regra que marque como positivo todas as origens cujo tráfego médio seja menor que o valor acima.
Combine as regras de forma que ambas as heurísticas precisem se aplicar simultaneamente, usando uma operação aritmética apropriada.
Informe a acurácia da heurística combinada.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Compute the mean of average_packet for bad sources
avg_bad_packet = np.mean(____[____]['average_packet'])

# Label as positive if average_packet is lower than that
pred_packet = ____[____] < avg_bad_packet

# Find indices where pred_port and pred_packet both True
pred_port = X_test['unique_ports'] > avg_bad_ports
pred_both = pred_packet ____ pred_port

# Ports only produced an accuracy of 0.919. Is this better?
print(accuracy_score(____, ____))

Editar e executar o código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

74 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais