量子化モデルで推論を高速化する

あなたの会社では、カスタマーサービスのチャットボットに量子化済みの Llama モデルをしばらく使用しています。最大の苦情は、ボットの応答が非常に遅いことと、ときどき不自然な回答を出すことです。

原因として、正規化せずに 4-bit へ量子化していることが関係しているのではないかと疑っています。調査の中で、速度低下は推論計算が 32-bit float を使用していることにも起因している可能性があると考えています。

モデルの推論速度を改善するために、量子化の設定を調整してください。以下のインポートはすでに読み込まれています：AutoModelForCausalLM、AutoTokenizer、BitsAndBytesConfig。