8-Bit-Modelle laden
Dein Unternehmen nutzt schon seit einiger Zeit ein Llama-Modell für den Kundenservice-Chatbot. Deine Aufgabe ist es herauszufinden, wie sich der GPU-Speicherbedarf des Modells reduzieren lässt, ohne die Leistung spürbar zu verschlechtern. So kann das Team auf einen günstigeren Compute-Cluster umsteigen und dem Unternehmen viel Geld sparen.
Du entscheidest dich zu testen, ob du dein Modell mit 8-Bit-Quantisierung laden und dabei eine angemessene Performance beibehalten kannst.
Das Modell steht dir in model_name zur Verfügung. AutoModelForCausalLM und AutoTokenizer sind bereits für dich importiert.
Diese Übung ist Teil des Kurses
Feinabstimmung mit Llama 3
Anleitung zur Übung
- Importiere die Konfigurationsklasse, um das Laden von Modellen mit Quantisierung zu ermöglichen.
- Instanziiere die Quantisierungskonfigurationsklasse.
- Konfiguriere die Quantisierungsparameter, um das Modell in 8 Bit zu laden.
- Übergib die Quantisierungskonfiguration an
AutoModelForCausalLM, um das quantisierte Modell zu laden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
# Set 8-bit loading
____=True,
)
model = AutoModelForCausalLM.from_pretrained(
"Maykeye/TinyLLama-v0",
# Set quantization parameters to load quantized model
____=bnb_config,
low_cpu_mem_usage=True
)