Verificando os resultados

Neste exercício, você vai verificar os resultados do seu modelo de detecção de fraude com DBSCAN. Na prática, muitas vezes você não tem rótulos confiáveis, e é aí que um analista de fraude pode ajudar a validar os resultados. Ele/ela pode revisar seus resultados e ver se os casos sinalizados são de fato suspeitos. Você também pode verificar casos historicamente conhecidos de fraude e ver se o seu modelo os sinaliza.

Neste caso, você vai usar os rótulos de fraude para checar os resultados do seu modelo. Os números de cluster previstos estão disponíveis em pred_labels, assim como os rótulos de fraude originais em labels.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

Crie um dataframe combinando os números dos clusters com os rótulos reais. Isso já foi feito para você.
Crie uma condição que sinalize fraude para os três menores clusters: clusters 21, 17 e 9.
Crie uma tabela cruzada a partir dos rótulos reais de fraude com os novos rótulos de fraude previstos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a dataframe of the predicted cluster numbers and fraud labels 
df = pd.DataFrame({'clusternr':pred_labels,'fraud':labels})

# Create a condition flagging fraud for the smallest clusters 
df['predicted_fraud'] = np.where((df['clusternr']==21)|(____)|(____),1 , 0)

# Run a crosstab on the results 
print(pd.crosstab(df['fraud'], df['____'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))

Editar e executar o código