Als tijd telt - een beetje
Je hebt geleerd hoe de acceptabele latentie van je Machine Learning-service de keuze voor de servingmodus beïnvloedt.
Soms kunnen gebruikers dagen, zelfs weken wachten. Soms is een seconde al te veel.
Hoe lager de verwachte latentie, hoe groter de engineeringuitdagingen en de kosten van je service worden. Vermijd daarom over-engineering en stem het ontwerp van je ML-service af op wat gebruikers nodig hebben en waarvoor ze bereid zijn te betalen.
Stel bijvoorbeeld dat je een ML-service bouwt voor het analyseren en samenvatten van grote .pdf-documenten. Als je gebruikers aangeven dat ze de resultaten binnen 5 minuten na hun verzoek willen ontvangen, is de meest logische servingmodus voor jouw usecase:
Deze oefening maakt deel uit van de cursus
MLOps-deployments en levenscyclus
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen