Menghitung robust z-score
Mari kita lihat kembali himpunan data transfers yang telah kita gunakan di Bab 1.
Himpunan data ini berisi 222 transaksi dan terdapat empat kasus penipuan yang diketahui, ditandai dengan 1 pada variabel fraud_flag. Kita sudah mempelajari fitur frekuensi dan kebaruan (recency) sebelumnya.
Kali ini kita hanya akan berfokus pada variabel amount dan mencoba mendeteksi kasus penipuan dengan menerapkan teknik deteksi pencilan univariat pada variabel ini.
Jangan ragu untuk mengeksplorasi himpunan data di Console jika Anda perlu menyegarkan ingatan tentang strukturnya. Anda juga dapat merujuk ke slide untuk memeriksa fungsi-fungsi yang ditampilkan pada video sebelumnya.
Latihan ini merupakan bagian dari kursus
Deteksi Fraud di R
Instruksi latihan
- Cari tahu observasi mana yang diidentifikasi sebagai penipuan.
- Hitung median dan median absolute deviation (mad) untuk variabel
amount. - Gunakan penduga robust untuk lokasi dan sebaran guna menghitung robust z-score untuk setiap observasi.
- Observasi mana yang memiliki robust z-score lebih dari 3 dalam nilai absolut?
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Get observations identified as fraud
which(___ == ___)
# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)
# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))
# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)