LoslegenKostenlos loslegen

8-Bit-Modelle laden

Dein Unternehmen nutzt schon seit einiger Zeit ein Llama-Modell für den Kundenservice-Chatbot. Deine Aufgabe ist es herauszufinden, wie sich der GPU-Speicherbedarf des Modells reduzieren lässt, ohne die Leistung spürbar zu verschlechtern. So kann das Team auf einen günstigeren Compute-Cluster umsteigen und dem Unternehmen viel Geld sparen.

Du entscheidest dich zu testen, ob du dein Modell mit 8-Bit-Quantisierung laden und dabei eine angemessene Performance beibehalten kannst.

Das Modell steht dir in model_name zur Verfügung. AutoModelForCausalLM und AutoTokenizer sind bereits für dich importiert.

Diese Übung ist Teil des Kurses

Feinabstimmung mit Llama 3

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Konfigurationsklasse, um das Laden von Modellen mit Quantisierung zu ermöglichen.
  • Instanziiere die Quantisierungskonfigurationsklasse.
  • Konfiguriere die Quantisierungsparameter, um das Modell in 8 Bit zu laden.
  • Übergib die Quantisierungskonfiguration an AutoModelForCausalLM, um das quantisierte Modell zu laden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
	# Set 8-bit loading
	____=True,
)
model = AutoModelForCausalLM.from_pretrained(
    "Maykeye/TinyLLama-v0",
  	# Set quantization parameters to load quantized model
    ____=bnb_config,
    low_cpu_mem_usage=True
)
Code bearbeiten und ausführen