1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ教師なし学習

Connected

演習

魚データのクラスタリング

前の演習で作成した標準化とクラスタリングのパイプラインを使って、魚を計測値でクラスタリングし、クラスタラベルと魚種を比較するクロス集計を作成します。

これまでと同様に、samples は魚の計測値からなる2次元配列です。パイプラインは pipeline として利用可能で、各サンプルの魚種はリスト species に入っています。

指示

100 XP
  • pandas を pd としてインポートします。
  • samples(魚の計測値)にパイプラインを当てはめます。
  • pipeline の .predict() メソッドを使って、samples のクラスタラベルを取得します。
  • pd.DataFrame() を使い、列名を 'labels' と 'species' とする2列の DataFrame df を作成し、それぞれの列の値に labels と species を用います。
  • pd.crosstab() を使い、df['labels'] と df['species'] のクロス集計 ct を作成します。