Verificando os resultados
Neste exercício, você vai verificar os resultados do seu modelo de detecção de fraude com DBSCAN. Na prática, muitas vezes você não tem rótulos confiáveis, e é aí que um analista de fraude pode ajudar a validar os resultados. Ele/ela pode revisar seus resultados e ver se os casos sinalizados são de fato suspeitos. Você também pode verificar casos historicamente conhecidos de fraude e ver se o seu modelo os sinaliza.
Neste caso, você vai usar os rótulos de fraude para checar os resultados do seu modelo. Os números de cluster previstos estão disponíveis em pred_labels, assim como os rótulos de fraude originais em labels.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Crie um dataframe combinando os números dos clusters com os rótulos reais. Isso já foi feito para você.
- Crie uma condição que sinalize fraude para os três menores clusters: clusters 21, 17 e 9.
- Crie uma tabela cruzada a partir dos rótulos reais de fraude com os novos rótulos de fraude previstos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a dataframe of the predicted cluster numbers and fraud labels
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})
# Create a condition flagging fraud for the smallest clusters
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)
# Run a crosstab on the results
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))