Análisis de costes en un caso real

Vas a seguir trabajando con el conjunto de datos de crédito en este ejercicio. Recuerda que un "positivo" en este conjunto significa "mal crédito", es decir, un cliente que incumplió el pago de su préstamo; y un "negativo" significa un cliente que siguió pagando sin problemas. La persona responsable del banco te informó de que el banco gana de media 10K de beneficio por cada cliente "de buen riesgo", pero pierde 150K por cada cliente "de mal riesgo". Tu algoritmo se usará para filtrar solicitudes, de modo que a quienes se etiquete como "negativo" se les concederá un préstamo y a los "positivos" se les rechazará. ¿Cuál es el coste total de tu clasificador? Los datos están disponibles como X_train, X_test, y_train y y_test. Están disponibles las funciones confusion_matrix(), f1_score(), precision_score() y RandomForestClassifier().

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Ajusta un clasificador de random forest con los datos de entrenamiento.
Úsalo para etiquetar los datos de prueba.
Extrae los falsos negativos y los falsos positivos de confusion_matrix(). Tendrás que aplanar la matriz.
Clasificar por error a un cliente "bueno" como "malo" implica que el banco perdería la oportunidad de ganar 10K de beneficio. Clasificar por error a un cliente "malo" como "bueno" implica que el banco perdería 150K debido al impago del préstamo.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Fit a random forest classifier to the training data
clf = ____(random_state=2).fit(____, ____)

# Label the test data
preds = clf.____(____)

# Get false positives/negatives from the confusion matrix
tn, ____, ____, tp = confusion_matrix(y_test, preds).____()

# Now compute the cost using the manager's advice
cost = fp*____ + fn*____

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

94 reviews

En los capítulos anteriores asentaste una base sólida en aprendizaje supervisado, con conocimientos sobre poner modelos en producción, pero siempre asumiste que habría un conjunto de datos etiquetado disponible para tu análisis. En este capítulo, afrontas el reto de modelar datos sin etiquetas o con muy pocas. Esto te lleva a explorar la detección de anomalías, un tipo de modelado no supervisado, así como el aprendizaje basado en distancias, donde las creencias sobre qué constituye la similitud entre dos ejemplos pueden usarse en lugar de etiquetas para ayudarte a lograr niveles de precisión comparables a un flujo de trabajo supervisado. Al completar este capítulo, destacarás claramente entre las personas que hacen ciencia de datos al saber con confianza qué herramientas usar para adaptar tu flujo de trabajo y superar desafíos habituales del mundo real.

Exercise 1: Detección de anomalías Exercise 2: Un outlier sencillo Exercise 3: Contaminación en LoF Exercise 4: Detección de novedades Exercise 5: Una novedad sencilla Exercise 6: Tres detectores de novedad Exercise 7: Revisiting contamination Exercise 8: Aprendizaje basado en distancias Exercise 9: Encuentra el vecino Exercise 10: No todas las métricas coinciden Exercise 11: Datos no estructurados Exercise 12: Levenshtein restringida Exercise 13: Juntándolo todo Exercise 14: Comentarios finales