Menghitung robust z-score
Mari kita lihat kembali himpunan data transfers yang telah kita gunakan di Bab 1.
Himpunan data ini berisi 222 transaksi dan terdapat empat kasus penipuan yang diketahui, ditandai dengan 1 pada variabel fraud_flag. Kita sudah mempelajari fitur frekuensi dan kebaruan (recency) sebelumnya.
Kali ini kita hanya akan berfokus pada variabel amount dan mencoba mendeteksi kasus penipuan dengan menerapkan teknik deteksi pencilan univariat pada variabel ini.
Jangan ragu untuk mengeksplorasi himpunan data di Console jika Anda perlu menyegarkan ingatan tentang strukturnya. Anda juga dapat merujuk ke slide untuk memeriksa fungsi-fungsi yang ditampilkan pada video sebelumnya.
Latihan ini adalah bagian dari kursus
Deteksi Fraud di R
Petunjuk latihan
- Cari tahu observasi mana yang diidentifikasi sebagai penipuan.
- Hitung median dan median absolute deviation (mad) untuk variabel
amount. - Gunakan penduga robust untuk lokasi dan sebaran guna menghitung robust z-score untuk setiap observasi.
- Observasi mana yang memiliki robust z-score lebih dari 3 dalam nilai absolut?
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Get observations identified as fraud
which(___ == ___)
# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)
# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))
# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)