1. Learn
  2. /
  3. Courses
  4. /
  5. Llama 3 のファインチューニング

Connected

Exercise

量子化モデルで推論を高速化する

あなたの会社では、カスタマーサービスのチャットボットに量子化済みの Llama モデルをしばらく使用しています。最大の苦情は、ボットの応答が非常に遅いことと、ときどき不自然な回答を出すことです。

原因として、正規化せずに 4-bit へ量子化していることが関係しているのではないかと疑っています。調査の中で、速度低下は推論計算が 32-bit float を使用していることにも起因している可能性があると考えています。

モデルの推論速度を改善するために、量子化の設定を調整してください。以下のインポートはすでに読み込まれています:AutoModelForCausalLM、AutoTokenizer、BitsAndBytesConfig。

Instructions

100 XP
  • 外れ値を抑えてナンセンスな回答を減らすため、量子化タイプを正規化された 4-bit に設定します。
  • 推論計算を高速化するため、compute type を bfloat16 に設定します。