Combinar heurísticas

Otra analista de ciberseguridad te comenta que, en ciertos tipos de ataque, el equipo de origen infectado envía pequeños fragmentos de tráfico para evitar ser detectado. Esto te hace pensar si no sería mejor crear una heurística combinada que busque simultáneamente un gran número de puertos y tamaños de paquete pequeños. ¿Mejora esto el rendimiento frente a la heurística simple de puertos? Como en el ejercicio anterior, tienes X_train, X_test, y_train y y_test en memoria. El código de ejemplo también te ayuda a reproducir el resultado de la heurística de puertos, pred_port. Además, tienes numpy como np y accuracy_score() precargados.

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

La columna average_packet calcula el tamaño medio de los paquetes en todos los flujos observados desde una única fuente. Calcula la media de esos valores para las fuentes maliciosas únicamente en el conjunto de entrenamiento.
Ahora construye una nueva regla que marque como positivas todas las fuentes cuya media de tráfico sea inferior al valor anterior.
Combina las reglas de forma que ambas heurísticas se apliquen simultáneamente, usando una operación aritmética adecuada.
Informa de la exactitud de la heurística combinada.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Compute the mean of average_packet for bad sources
avg_bad_packet = np.mean(____[____]['average_packet'])

# Label as positive if average_packet is lower than that
pred_packet = ____[____] < avg_bad_packet

# Find indices where pred_port and pred_packet both True
pred_port = X_test['unique_ports'] > avg_bad_ports
pred_both = pred_packet ____ pred_port

# Ports only produced an accuracy of 0.919. Is this better?
print(accuracy_score(____, ____))

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

74 reviews

En los capítulos anteriores asentaste una base sólida en aprendizaje supervisado, con conocimientos sobre poner modelos en producción, pero siempre asumiste que habría un conjunto de datos etiquetado disponible para tu análisis. En este capítulo, afrontas el reto de modelar datos sin etiquetas o con muy pocas. Esto te lleva a explorar la detección de anomalías, un tipo de modelado no supervisado, así como el aprendizaje basado en distancias, donde las creencias sobre qué constituye la similitud entre dos ejemplos pueden usarse en lugar de etiquetas para ayudarte a lograr niveles de precisión comparables a un flujo de trabajo supervisado. Al completar este capítulo, destacarás claramente entre las personas que hacen ciencia de datos al saber con confianza qué herramientas usar para adaptar tu flujo de trabajo y superar desafíos habituales del mundo real.

Exercise 1: Detección de anomalías Exercise 2: Un outlier sencillo Exercise 3: Contaminación en LoF Exercise 4: Detección de novedades Exercise 5: Una novedad sencilla Exercise 6: Tres detectores de novedad Exercise 7: Revisiting contamination Exercise 8: Aprendizaje basado en distancias Exercise 9: Encuentra el vecino Exercise 10: No todas las métricas coinciden Exercise 11: Datos no estructurados Exercise 12: Levenshtein restringida Exercise 13: Juntándolo todo Exercise 14: Comentarios finales