1. 学ぶ
  2. /
  3. コース
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

演習

RLHF に向けた生成テキストの分類

ここでは、生成されたレビューを分類していきます。出力を評価する一つの方法として、Hugging Face のパイプラインでインスタンス化できる分類器 lvwerra/distilbert-imdb を使い、生成レビューのポジティブ度を測定します。

transformers から pipeline ライブラリはすでにインポート済みです。lvwerra/distilbert-imdb モデルは model として、トークナイザーは tokenizer として事前に読み込まれています。

指示

100 XP
  • pipeline 関数を使って、指定のモデルで感情分析のパイプラインを作成します。
  • 提示されたレビューの感情を分類します。