Ładowanie modeli 8-bitowych

Twoja firma od jakiegoś czasu używa modelu Llama w chatbocie obsługi klienta. Otrzymujesz zadanie: sprawdzić, jak zmniejszyć zużycie pamięci GPU przez model, nie tracąc przy tym znacząco na jakości działania. Dzięki temu zespół będzie mógł przejść na tańszy klaster obliczeniowy i zaoszczędzić firmie sporo pieniędzy.

Postanawiasz przetestować, czy uda się załadować model z 8-bitową kwantyzacją przy zachowaniu rozsądnej wydajności.

Nazwa modelu jest dostępna w zmiennej model_name. Klasy AutoModelForCausalLM oraz AutoTokenizer są już zaimportowane.

Zaimportuj klasę konfiguracji umożliwiającą ładowanie modeli z kwantyzacją.
Utwórz instancję klasy konfiguracji kwantyzacji.
Skonfiguruj parametry kwantyzacji, aby załadować model w trybie 8-bitowym.
Przekaż konfigurację kwantyzacji do AutoModelForCausalLM, aby załadować skwantyzowany model.

道练习

Ładowanie modeli 8-bitowych

说明

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}道练习

说明

道练习