8-bit モデルの読み込み

あなたの会社では、顧客対応のチャットボットに Llama モデルをしばらく使っています。あなたは、パフォーマンスを大きく落とさずにモデルの GPU メモリ使用量を減らす方法を検討する担当になりました。これが実現できれば、より安価な計算クラスターに切り替えて大幅なコスト削減が期待できます。

まずは、モデルを 8-bit 量子化で読み込んでも妥当な性能を維持できるかをテストすることにします。

モデル名は model_name で与えられています。AutoModelForCausalLM と AutoTokenizer はすでにインポート済みです。