Análise de custos no mundo real

Você ainda vai trabalhar com o conjunto de dados de crédito neste exercício. Lembre que um "positivo" neste conjunto significa "crédito ruim", ou seja, um cliente que deu default no empréstimo, e um "negativo" significa um cliente que continuou pagando sem problemas. O gerente do banco informou que o banco lucra, em média, 10 mil com cada cliente "good risk", mas perde 150 mil com cada cliente "bad risk". Seu algoritmo será usado para triagem de solicitantes, então quem for rotulado como "negativo" receberá o empréstimo, e os "positivos" serão recusados. Qual é o custo total do seu classificador? Os dados estão disponíveis como X_train, X_test, y_train e y_test. As funções confusion_matrix(), f1_score(), precision_score() e RandomForestClassifier() estão disponíveis.

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Ajuste um classificador de random forest aos dados de treino.
Use-o para rotular os dados de teste.
Extraia os falsos negativos e falsos positivos de confusion_matrix(). Você terá que achatar a matriz.
Classificar erroneamente um cliente "good" como "bad" significa que o banco teria perdido a chance de obter um lucro de 10 mil. Classificar erroneamente um cliente "bad" como "good" significa que o banco teria perdido 150 mil devido ao default do cliente no empréstimo.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Fit a random forest classifier to the training data
clf = ____(random_state=2).fit(____, ____)

# Label the test data
preds = clf.____(____)

# Get false positives/negatives from the confusion matrix
tn, ____, ____, tp = confusion_matrix(y_test, preds).____()

# Now compute the cost using the manager's advice
cost = fp*____ + fn*____

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

In the previous chapters you established a solid foundation in supervised learning, complete with knowledge of deploying models in production but always assumed you a labeled dataset would be available for your analysis. In this chapter, you take on the challenge of modeling data without any, or with very few, labels. This takes you into a journey into anomaly detection, a kind of unsupervised modeling, as well as distance-based learning, where beliefs about what constitutes similarity between two examples can be used in place of labels to help you achieve levels of accuracy comparable to a supervised workflow. Upon completing this chapter, you will clearly stand out from the crowd of data scientists in confidently knowing what tools to use to modify your workflow in order to overcome common real-world challenges.

Exercise 1: Anomaly detection Exercise 2: A simple outlier Exercise 3: LoF contamination Exercise 4: Novelty detection Exercise 5: A simple novelty Exercise 6: Three novelty detectors Exercise 7: Contamination revisited Exercise 8: Distance-based learning Exercise 9: Find the neighbor Exercise 10: Not all metrics agree Exercise 11: Unstructured data Exercise 12: Restricted Levenshtein Exercise 13: Bringing it all together Exercise 14: Concluding remarks