Limite padrão (threshold)
Você quer confirmar que o DecisionTreeClassifier() usa o mesmo limite padrão de classificação mencionado na lição anterior, isto é, 0,5. Parece estranho para você que todos os classificadores usem o mesmo limite. Vamos conferir! Um classificador de árvore de decisão ajustado clf já foi pré-carregado, assim como os dados de treino e teste com seus nomes usuais: X_train, X_test, y_train e y_test. Você precisará extrair as probabilidades do classificador usando o método .predict_proba().
Este exercício faz parte do curso
Projetando Workflows de Machine Learning em Python
Instruções do exercício
- Gere pontuações para os exemplos de teste usando o classificador pré-carregado
clf. - Agora extraia os rótulos a partir das pontuações. Lembre-se de que você tem um par de pontuações para cada exemplo, não uma única, e o segundo elemento é a probabilidade da classe positiva.
- Agora rotule os dados de teste usando o método padrão
.predict() - Por fim, compare com as previsões que você obteve antes. Elas são idênticas?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Score the test data using the given classifier
scores = clf.____(____)
# Get labels from the scores using the default threshold
preds = [s[____] > ____ for s in scores]
# Use the predict method to label the test data again
preds_default = clf.____(____)
# Compare the two sets of predictions
____(preds == preds_default)