Wenn Zeit zählt – ein bisschen
Du hast gelernt, wie die akzeptable Latenz deines Machine-Learning-Services die Wahl des Serving-Modus beeinflusst.
Manchmal können Nutzer Tage oder sogar Wochen warten. Manchmal ist schon eine Sekunde zu viel.
Je geringer die erwartete Latenz, desto größer die technischen Herausforderungen – und desto höher die Kosten deines Services. Vermeide daher Overengineering und richte das Design deines ML-Services an dem aus, was die Nutzer brauchen und wofür sie zu zahlen bereit sind.
Angenommen, du baust einen ML-Service zur Analyse und Zusammenfassung großer .pdf-Dokumente. Wenn deine Nutzer dir sagen, dass sie die Ausgaben deines Services innerhalb von 5 Minuten nach der Anfrage erhalten möchten, wäre der sinnvollste Serving-Modus für deinen Use Case:
Diese Übung ist Teil des Kurses
MLOps-Bereitstellung und Lebenszyklus
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten