Otimização do limiar

Você ouviu que o valor padrão de 0,5 maximiza a acurácia em teoria, mas quer testar o que acontece na prática. Então, você experimenta vários valores de limiar diferentes para ver a acurácia obtida e, assim, determinar o limiar com melhor desempenho. Você repete esse experimento para o score F1. 0,5 é o limiar ideal? O limiar ideal para acurácia e para o score F1 é o mesmo? Vá em frente e descubra! Você tem disponível uma matriz scores, obtida ao pontuar os dados de teste. Os rótulos verdadeiros dos dados de teste também estão disponíveis como y_test. Por fim, duas funções do numpy já estão pré-carregadas, argmin() e argmax(), que recuperam, respectivamente, o índice dos valores mínimo e máximo em um array, além das métricas accuracy_score() e f1_score().

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Crie uma faixa de valores de limiar que inclua 0.0, 0.25, 0.5, 0.75 e 1.0.
Usando compreensão de listas dupla, armazene as previsões para cada valor de limiar na faixa acima. Lembre-se de que obter rótulos para uma matriz de pontuações usando um limiar thr é possível com [s[1] > thr for s in scores].
Percorra essa lista e calcule a acurácia para cada limiar. Repita para o score F1.
Usando argmin() ou argmax(), encontre o limiar ideal para acurácia e para F1.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a range of equally spaced threshold values
t_range = ____

# Store the predicted labels for each value of the threshold
preds = [[____ > thr for s in scores] for ____ in ____]

# Compute the accuracy for each threshold
accuracies = [____(____, ____) for p in preds]

# Compute the F1 score for each threshold
f1_scores = [____(____, ____) for p in preds]

# Report the optimal threshold for accuracy, and for F1
print(t_range[____(accuracies)], t_range[____(f1_scores)])

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

In the previous chapters you established a solid foundation in supervised learning, complete with knowledge of deploying models in production but always assumed you a labeled dataset would be available for your analysis. In this chapter, you take on the challenge of modeling data without any, or with very few, labels. This takes you into a journey into anomaly detection, a kind of unsupervised modeling, as well as distance-based learning, where beliefs about what constitutes similarity between two examples can be used in place of labels to help you achieve levels of accuracy comparable to a supervised workflow. Upon completing this chapter, you will clearly stand out from the crowd of data scientists in confidently knowing what tools to use to modify your workflow in order to overcome common real-world challenges.

Exercise 1: Anomaly detection Exercise 2: A simple outlier Exercise 3: LoF contamination Exercise 4: Novelty detection Exercise 5: A simple novelty Exercise 6: Three novelty detectors Exercise 7: Contamination revisited Exercise 8: Distance-based learning Exercise 9: Find the neighbor Exercise 10: Not all metrics agree Exercise 11: Unstructured data Exercise 12: Restricted Levenshtein Exercise 13: Bringing it all together Exercise 14: Concluding remarks