1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶカスタマーセグメンテーション

Connected

演習

二乗誤差の合計を計算してプロットする

ここでは、クラスタ数を 1 から 10 まで変えながら、二乗誤差の合計(sum of squared errors)を計算します。

前の演習で作成した正規化済みの RFMT データ datamart_rfmt_normalized を使います。scikit-learn からは KMeans モジュールがインポート済みです。また、二乗誤差の合計を保存するための空の辞書 sse = {} を用意しています。

コンソールでデータを自由に確認してかまいません。

指示

100 XP
  • KMeans を k クラスタ、random_state=1 で初期化し、正規化済みデータセットにフィットさせます。
  • 二乗距離の合計を、辞書 sse の k 要素に代入します。
  • プロットのタイトルを "The Elbow Method"、X 軸ラベルを "k"、Y 軸ラベルを "SSE" に設定します。
  • 辞書にキーとして格納されている各 k に対する SSE の値をプロットします。