LoslegenKostenlos loslegen

8-Bit-Modelle laden

Dein Unternehmen nutzt schon seit einiger Zeit ein Llama-Modell für den Kundenservice-Chatbot. Deine Aufgabe ist es herauszufinden, wie sich der GPU-Speicherbedarf des Modells reduzieren lässt, ohne die Leistung spürbar zu verschlechtern. So kann das Team auf einen günstigeren Compute-Cluster umsteigen und dem Unternehmen viel Geld sparen.

Du entscheidest dich zu testen, ob du dein Modell mit 8-Bit-Quantisierung laden und dabei eine angemessene Performance beibehalten kannst.

Das Modell steht dir in model_name zur Verfügung. AutoModelForCausalLM und AutoTokenizer sind bereits für dich importiert.

Diese Übung ist Teil des Kurses

Feinabstimmung mit Llama 3

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Konfigurationsklasse, um das Laden von Modellen mit Quantisierung zu ermöglichen.
  • Instanziiere die Quantisierungskonfigurationsklasse.
  • Konfiguriere die Quantisierungsparameter, um das Modell in 8 Bit zu laden.
  • Übergib die Quantisierungskonfiguration an AutoModelForCausalLM, um das quantisierte Modell zu laden.

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten