1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

Exercise

データの前処理

クラスタリング前の前処理は、より正確にセグメンテーションするための下準備になります。前処理の一種である特徴量スケーリングは、データに含まれる独立変数を固定範囲(例:0-1 や 0-100)に標準化する手法です。

この演習では、performance として読み込まれた学生の成績データセットの parental_level_of_education 列と writing_score 列に対してクラスタリングを行います。まず、前処理なしで k-means モデルを作成して実行します。次に、特徴量スケーリングで前処理を行ってから、同様に実行します。

プライベート k-means モデルは diffprivlib.models から KMeans としてインポート済みです。スケーリング用の StandardScaler と次元削減の PCA は sklearn からインポート済みです。

Instrukcje 1 / 2

undefined XP
  • 1
    • 引数に 4 を指定してプライベートなクラスタリングモデルを作成します。
    • model をデータ performance に適合させます(引数に渡します)。
  • 2
    • .fit_transform() メソッドを使って、標準スケーラー scaler でデータを標準化します。
    • .fit_transform() メソッドを使い、pca でデータ performance を学習・変換します。
    • 4 クラスタでプライベートな KMeans() モデルを作成します。
    • model をデータ performance に適合させます。