Usando estatísticas para definir o comportamento normal
Nos exercícios anteriores, vimos que a fraude é mais prevalente em certas categorias de transação, mas que não há uma forma óbvia de segmentar nossos dados, por exemplo, em faixas etárias. Desta vez, vamos investigar os valores médios gastos em transações normais versus transações fraudulentas. Isso vai dar a você uma ideia de como as transações fraudulentas diferem estruturalmente das transações normais.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Crie dois novos dataframes a partir das observações de fraude e não fraude. Localize os dados em
dfcom.loce defina a condição "onde fraud é 1" e "onde fraud é 0" para criar os novos dataframes. - Plote a coluna
amountdos dataframes recém-criados nas funções de histograma e atribua os rótulosfraudenonfraud, respectivamente, aos gráficos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create two dataframes with fraud and non-fraud data
df_fraud = df.____[df.____ == ____]
df_non_fraud = df.____[df.____ == ____]
# Plot histograms of the amounts in fraud and non-fraud data
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()