1. 学ぶ
  2. /
  3. コース
  4. /
  5. R で学ぶ Mixture Models

Connected

演習

性別データを探索する

データ gender には、10,000人分の Weight、Height、BMI 指標が含まれています。元のデータには、5,000人が女性、もう5,000人が男性と自己申告した Gender ラベルがあります。これらのラベルは、後でクラスタリングが実際のラベルと比べてどれくらいうまくいっているかを検証するのに役立ちます。ただし、このデータセットのサブセットにはラベルは含まれていません。

データ gender_with_probs には、各データポイントがどのクラスタに属するかの確率も含まれています。クラスタは2つを想定しているため、1 に近い確率は一方のクラスタ、0 に近い確率はもう一方のクラスタを指します。

この演習の目的は、典型的なクラスタリング用データが、クラスタリングの前後でどのように見えるかをざっと確認することです。

指示

100 XP
  • 関数 head を使って、gender の最初の6行を確認します。
  • 関数 head を使って、gender_with_probs の最初の6行を確認します。
  • x軸に Weight、y軸に BMI を置いた散布図を作成し、確率で色付けします。