Métricas de desempenho para o modelo de RF
Nos exercícios anteriores, você obteve a acurácia do seu modelo de random forest. Desta vez, sabemos que a acurácia pode ser enganosa no caso de detecção de fraude. Com dados de fraude altamente desbalanceados, a curva AUROC é uma métrica de desempenho mais confiável, usada para comparar diferentes classificadores. Além disso, o relatório de classificação informa sobre a precisão (precision) e a revocação (recall) do seu modelo, enquanto a matriz de confusão mostra quantos casos de fraude você consegue prever corretamente. Então vamos obter essas métricas de desempenho.
Você continuará trabalhando com o mesmo modelo de random forest do exercício anterior. Seu modelo, definido como model = RandomForestClassifier(random_state=5), já foi ajustado aos seus dados de treino, e X_train, y_train, X_test, y_test estão disponíveis.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Importe o relatório de classificação, a matriz de confusão e o ROC score de
sklearn.metrics. - Obtenha as previsões binárias do
modelde random forest já treinado. - Obtenha as probabilidades previstas executando a função
predict_proba(). - Gere o relatório de classificação e a matriz de confusão comparando
y_testcompredicted.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____
# Obtain the predictions from our random forest model
predicted = model.____(X_test)
# Predict probabilities
probs = ____.____(X_test)
# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))