1. 学ぶ
  2. /
  3. コース
  4. /
  5. Llama 3 のファインチューニング

Connected

演習

8-bit モデルの読み込み

あなたの会社では、顧客対応のチャットボットに Llama モデルをしばらく使っています。あなたは、パフォーマンスを大きく落とさずにモデルの GPU メモリ使用量を減らす方法を検討する担当になりました。これが実現できれば、より安価な計算クラスターに切り替えて大幅なコスト削減が期待できます。

まずは、モデルを 8-bit 量子化で読み込んでも妥当な性能を維持できるかをテストすることにします。

モデル名は model_name で与えられています。AutoModelForCausalLM と AutoTokenizer はすでにインポート済みです。

指示

100 XP
  • 量子化付きでモデルを読み込めるように、設定用のクラスをインポートします。
  • 量子化設定クラスのインスタンスを作成します。
  • モデルを 8-bit で読み込むように量子化パラメータを設定します。
  • 量子化設定を AutoModelForCausalLM に渡し、量子化済みモデルを読み込みます。