1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

Bài tập

フィードバックのクラスタリングにおけるK-means

あなたはフィードバック回答のデータセットを持ち、各回答について GPT モデルで信頼度スコアを計算しました。異常または外れ値のフィードバックを特定するため、低信頼度の回答に対して k-means クラスタリングを適用します。

KMeans アルゴリズム、reviews と confidences の変数、そして np ライブラリはすでに読み込まれています。

Hướng dẫn

100 XP
  • k-means アルゴリズムを初期化します。コードの再現性のため、random_state を 42 に設定します。
  • 外れ値を特定できるよう、data と対応するクラスタ中心の差から距離を計算します。