ComeçarComece de graça

Usando estatísticas para definir o comportamento normal

Nos exercícios anteriores, vimos que a fraude é mais prevalente em certas categorias de transação, mas que não há uma forma óbvia de segmentar nossos dados, por exemplo, em faixas etárias. Desta vez, vamos investigar os valores médios gastos em transações normais versus transações fraudulentas. Isso vai dar a você uma ideia de como as transações fraudulentas diferem estruturalmente das transações normais.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

  • Crie dois novos dataframes a partir das observações de fraude e não fraude. Localize os dados em df com .loc e defina a condição "onde fraud é 1" e "onde fraud é 0" para criar os novos dataframes.
  • Plote a coluna amount dos dataframes recém-criados nas funções de histograma e atribua os rótulos fraud e nonfraud, respectivamente, aos gráficos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create two dataframes with fraud and non-fraud data 
df_fraud = df.____[df.____ == ____] 
df_non_fraud = df.____[df.____ == ____]

# Plot histograms of the amounts in fraud and non-fraud data 
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()
Editar e executar o código