Umbral por defecto

Te gustaría confirmar que DecisionTreeClassifier() usa el mismo umbral de clasificación por defecto mencionado en la lección anterior, concretamente 0.5. Te resulta raro que todos los clasificadores usen el mismo umbral. ¡Vamos a comprobarlo! Ya tienes cargado un clasificador de árbol de decisión ajustado clf, así como los datos de entrenamiento y prueba con sus nombres habituales: X_train, X_test, y_train y y_test. Tendrás que extraer puntuaciones de probabilidad del clasificador usando el método .predict_proba().

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Genera las puntuaciones para los ejemplos de prueba usando el clasificador precargado clf.
Ahora extrae etiquetas a partir de esas puntuaciones. Recuerda que tienes un par de puntuaciones por ejemplo, no una sola, y el segundo elemento es la probabilidad de la clase positiva.
Ahora etiqueta los datos de prueba usando el método estándar .predict().
Por último, compara con las predicciones que obtuviste antes. ¿Son idénticas?

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Score the test data using the given classifier
scores = clf.____(____)

# Get labels from the scores using the default threshold
preds = [s[____] > ____ for s in scores]

# Use the predict method to label the test data again
preds_default = clf.____(____)

# Compare the two sets of predictions
____(preds == preds_default)

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

74 reviews

En los capítulos anteriores asentaste una base sólida en aprendizaje supervisado, con conocimientos sobre poner modelos en producción, pero siempre asumiste que habría un conjunto de datos etiquetado disponible para tu análisis. En este capítulo, afrontas el reto de modelar datos sin etiquetas o con muy pocas. Esto te lleva a explorar la detección de anomalías, un tipo de modelado no supervisado, así como el aprendizaje basado en distancias, donde las creencias sobre qué constituye la similitud entre dos ejemplos pueden usarse en lugar de etiquetas para ayudarte a lograr niveles de precisión comparables a un flujo de trabajo supervisado. Al completar este capítulo, destacarás claramente entre las personas que hacen ciencia de datos al saber con confianza qué herramientas usar para adaptar tu flujo de trabajo y superar desafíos habituales del mundo real.

Exercise 1: Detección de anomalías Exercise 2: Un outlier sencillo Exercise 3: Contaminación en LoF Exercise 4: Detección de novedades Exercise 5: Una novedad sencilla Exercise 6: Tres detectores de novedad Exercise 7: Revisiting contamination Exercise 8: Aprendizaje basado en distancias Exercise 9: Encuentra el vecino Exercise 10: No todas las métricas coinciden Exercise 11: Datos no estructurados Exercise 12: Levenshtein restringida Exercise 13: Juntándolo todo Exercise 14: Comentarios finales