学ぶ

/

コース

/

人間のフィードバックによる強化学習（RLHF）

Connected

演習

RLHF に向けた生成テキストの分類

ここでは、生成されたレビューを分類していきます。出力を評価する一つの方法として、Hugging Face のパイプラインでインスタンス化できる分類器 lvwerra/distilbert-imdb を使い、生成レビューのポジティブ度を測定します。

transformers から pipeline ライブラリはすでにインポート済みです。lvwerra/distilbert-imdb モデルは model として、トークナイザーは tokenizer として事前に読み込まれています。

指示

100 XP

pipeline 関数を使って、指定のモデルで感情分析のパイプラインを作成します。
提示されたレビューの感情を分類します。