1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Fine-Tuning s Llama 3

Connected

cvičení

Načítání modelů v 8bitech

Tvoje společnost už nějakou dobu používá model Llama pro chatbota zákaznické podpory. Dostal/a jsi za úkol zjistit, jak snížit využití GPU paměti modelu, aniž by to výrazně ovlivnilo jeho výkon. To umožní týmu přejít na levnější výpočetní cluster a ušetřit firmě nemalé peníze.

Rozhodneš se otestovat, jestli lze model načíst s 8bitovou kvantizací a přitom zachovat přijatelný výkon.

Model máš k dispozici v proměnné model_name. AutoModelForCausalLM a AutoTokenizer jsou již naimportované.

Pokyny

100 XP
  • Importuj konfigurační třídu, která umožňuje načítání modelů s kvantizací.
  • Vytvoř instanci konfigurační třídy pro kvantizaci.
  • Nastav parametry kvantizace tak, aby se model načetl v 8bitech.
  • Předej konfiguraci kvantizace do AutoModelForCausalLM pro načtení kvantizovaného modelu.