1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

クラスタリング用データセットの生成

合成データは完全に合法で、世界中のプライバシー関連の法律や規制要件を満たします。生データに代わる、プライバシーに配慮した有効な選択肢です。make_blobs() 関数を使うと、ガウス(正規)分布に従うデータ点を生成できます。

この演習では、15000 サンプルのデータセットを生成します。

numpy はすでに np としてインポート済みで、カスタム関数 plot_data_points() もこの演習用に用意されています。

指示

100 XP
  • クラスタリング用データセットを生成するために、datasets モジュールから該当する関数をインポートします。
  • 15000 サンプル、特徴量は 2、中心は 2、クラスタの標準偏差は 3 としてデータセットを生成します。
  • 生成されたデータの形状を出力します。
  • 結果のデータ点を 2 次元の散布図で確認します。