データのスケーリング

距離に基づく指標を使う ML アルゴリズムでは、特徴量のスケールが異なると結果が歪むため、データをスケーリングすることが重要です。K-means はクラスタ重心までの距離を評価するのにユークリッド距離を使用するため、アルゴリズムを実装する前にデータをスケーリングする必要があります。まずはそこから進めましょう。

前の演習で作成したデータフレーム df が用意されています。sklearn で使えるように、いくつかの前処理は済んでいます。不正ラベルは labels に別で保存されているので、後で結果の確認に使えます。numpy は np としてインポート済みです。