K-means クラスタリング

一般的によく使われるクラスタリング手法に、K-means クラスタリングがあります。不正検知において、K-means は実装がシンプルで、怪しいケースを予測するうえで比較的強力です。不正検知の課題に取り組む際の良い出発点になります。ただし、不正関連のデータはとても大きくなりがちで、特にトランザクションデータを扱う場合はなおさらです。そこで、MiniBatch K-means は大規模データセットに K-means を適用する効率的な方法であり、この演習で使用します。

前の演習でスケーリングしたデータ X_scaled が用意されています。さっそく試してみましょう。