1. Learn
  2. /
  3. 课程
  4. /
  5. Fine-Tuning z Llama 3

Connected

道练习

Ładowanie modeli 8-bitowych

Twoja firma od jakiegoś czasu używa modelu Llama w chatbocie obsługi klienta. Otrzymujesz zadanie: sprawdzić, jak zmniejszyć zużycie pamięci GPU przez model, nie tracąc przy tym znacząco na jakości działania. Dzięki temu zespół będzie mógł przejść na tańszy klaster obliczeniowy i zaoszczędzić firmie sporo pieniędzy.

Postanawiasz przetestować, czy uda się załadować model z 8-bitową kwantyzacją przy zachowaniu rozsądnej wydajności.

Nazwa modelu jest dostępna w zmiennej model_name. Klasy AutoModelForCausalLM oraz AutoTokenizer są już zaimportowane.

说明

100 XP
  • Zaimportuj klasę konfiguracji umożliwiającą ładowanie modeli z kwantyzacją.
  • Utwórz instancję klasy konfiguracji kwantyzacji.
  • Skonfiguruj parametry kwantyzacji, aby załadować model w trybie 8-bitowym.
  • Przekaż konfigurację kwantyzacji do AutoModelForCausalLM, aby załadować skwantyzowany model.