8-Bit-Modelle laden
Dein Unternehmen nutzt schon seit einiger Zeit ein Llama-Modell für den Kundenservice-Chatbot. Deine Aufgabe ist es herauszufinden, wie sich der GPU-Speicherbedarf des Modells reduzieren lässt, ohne die Leistung spürbar zu verschlechtern. So kann das Team auf einen günstigeren Compute-Cluster umsteigen und dem Unternehmen viel Geld sparen.
Du entscheidest dich zu testen, ob du dein Modell mit 8-Bit-Quantisierung laden und dabei eine angemessene Performance beibehalten kannst.
Das Modell steht dir in model_name zur Verfügung. AutoModelForCausalLM und AutoTokenizer sind bereits für dich importiert.
Diese Übung ist Teil des Kurses
Feinabstimmung mit Llama 3
Anleitung zur Übung
- Importiere die Konfigurationsklasse, um das Laden von Modellen mit Quantisierung zu ermöglichen.
- Instanziiere die Quantisierungskonfigurationsklasse.
- Konfiguriere die Quantisierungsparameter, um das Modell in 8 Bit zu laden.
- Übergib die Quantisierungskonfiguration an
AutoModelForCausalLM, um das quantisierte Modell zu laden.
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten