1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ不正検知

Connected

演習

データのスケーリング

距離に基づく指標を使う ML アルゴリズムでは、特徴量のスケールが異なると結果が歪むため、データをスケーリングすることが重要です。K-means はクラスタ重心までの距離を評価するのにユークリッド距離を使用するため、アルゴリズムを実装する前にデータをスケーリングする必要があります。まずはそこから進めましょう。

前の演習で作成したデータフレーム df が用意されています。sklearn で使えるように、いくつかの前処理は済んでいます。不正ラベルは labels に別で保存されているので、後で結果の確認に使えます。numpy は np としてインポート済みです。

指示

100 XP
  • MinMaxScaler をインポートしてください。
  • データフレーム df の値のみを取り出して numpy 配列 X に変換し、すべての値が float になるようにしてください。
  • 定義したスケーラーを X に適用して、すべての特徴量が 0〜1 のスケールになるようにスケーリングされた X_scaled を得てください。