学習サンプルを作成する

自社チームで開発中のカスタマーサポート用チャットボットの一環として、最終的に言語モデルのファインチューニングに使うデータセットを前処理するパイプラインを作成します。これにより、顧客の質問の意図を予測し、適切な担当チームにリクエストを振り分けられるようにします。

顧客の質問と意図が別々の列に入ったデータセットが与えられており、各サンプルの質問と意図を、指定したプロンプト形式で 1 つの文字列に結合するよう前処理したいと考えています。

データセットはすでに dataset に読み込まれています。instruction 列には顧客からの質問が、intent 列にはユーザーの意図が含まれています。