Métricas de desempenho para o modelo de RF

Nos exercícios anteriores, você obteve a acurácia do seu modelo de random forest. Desta vez, sabemos que a acurácia pode ser enganosa no caso de detecção de fraude. Com dados de fraude altamente desbalanceados, a curva AUROC é uma métrica de desempenho mais confiável, usada para comparar diferentes classificadores. Além disso, o relatório de classificação informa sobre a precisão (precision) e a revocação (recall) do seu modelo, enquanto a matriz de confusão mostra quantos casos de fraude você consegue prever corretamente. Então vamos obter essas métricas de desempenho.

Você continuará trabalhando com o mesmo modelo de random forest do exercício anterior. Seu modelo, definido como model = RandomForestClassifier(random_state=5), já foi ajustado aos seus dados de treino, e X_train, y_train, X_test, y_test estão disponíveis.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

Importe o relatório de classificação, a matriz de confusão e o ROC score de sklearn.metrics.
Obtenha as previsões binárias do model de random forest já treinado.
Obtenha as probabilidades previstas executando a função predict_proba().
Gere o relatório de classificação e a matriz de confusão comparando y_test com predicted.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____

# Obtain the predictions from our random forest model 
predicted = model.____(X_test)

# Predict probabilities
probs = ____.____(X_test)

# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))

Editar e executar o código