Načítání modelů v 8bitech

Tvoje společnost už nějakou dobu používá model Llama pro chatbota zákaznické podpory. Dostal/a jsi za úkol zjistit, jak snížit využití GPU paměti modelu, aniž by to výrazně ovlivnilo jeho výkon. To umožní týmu přejít na levnější výpočetní cluster a ušetřit firmě nemalé peníze.

Rozhodneš se otestovat, jestli lze model načíst s 8bitovou kvantizací a přitom zachovat přijatelný výkon.

Model máš k dispozici v proměnné model_name. AutoModelForCausalLM a AutoTokenizer jsou již naimportované.

Importuj konfigurační třídu, která umožňuje načítání modelů s kvantizací.
Vytvoř instanci konfigurační třídy pro kvantizaci.
Nastav parametry kvantizace tak, aby se model načetl v 8bitech.
Předej konfiguraci kvantizace do AutoModelForCausalLM pro načtení kvantizovaného modelu.

cvičení

Načítání modelů v 8bitech

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení