Revisiting contamination

Te das cuenta de que el SVM de una clase no tiene el parámetro contamination. Pero a estas alturas sabes que necesitas controlar la proporción de ejemplos que se etiquetan como novedades para mantener a raya la tasa de falsos positivos. Así que decides probar a umbralizar las puntuaciones. El detector se ha importado como onesvm; también tienes disponibles los datos como X_train, X_test, y_train, y_test, numpy como np, y confusion_matrix().

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Ajusta el 1-class SVM y puntúa los datos de prueba.
Calcula la proporción observada de valores atípicos en los datos de prueba.
Usa np.quantile() para encontrar el umbral de las puntuaciones que logre esa proporción.
Usa ese umbral para etiquetar los datos de prueba. Imprime la matriz de confusión.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Fit a one-class SVM detector and score the test data
nov_det = ____(X_train)
scores = ____(X_test)

# Find the observed proportion of outliers in the test data
prop = np.____(y_test==____)

# Compute the appropriate threshold
threshold = np.____(____, ____)

# Print the confusion matrix for the thresholded scores
print(confusion_matrix(y_test, ____ > ____))

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

94 reviews

In the previous chapters you established a solid foundation in supervised learning, complete with knowledge of deploying models in production but always assumed you a labeled dataset would be available for your analysis. In this chapter, you take on the challenge of modeling data without any, or with very few, labels. This takes you into a journey into anomaly detection, a kind of unsupervised modeling, as well as distance-based learning, where beliefs about what constitutes similarity between two examples can be used in place of labels to help you achieve levels of accuracy comparable to a supervised workflow. Upon completing this chapter, you will clearly stand out from the crowd of data scientists in confidently knowing what tools to use to modify your workflow in order to overcome common real-world challenges.

Exercise 1: Detección de anomalías Exercise 2: Un outlier sencillo Exercise 3: Contaminación en LoF Exercise 4: Detección de novedades Exercise 5: Una novedad sencilla Exercise 6: Tres detectores de novedad Exercise 7: Revisiting contamination

Ejercicio actual

Exercise 8: Aprendizaje basado en distancias Exercise 9: Encuentra el vecino Exercise 10: No todas las métricas coinciden Exercise 11: Datos no estructurados Exercise 12: Levenshtein restringida Exercise 13: Juntándolo todo Exercise 14: Comentarios finales