Quando il tempo conta - ma non troppo
Hai imparato come la latenza accettabile del tuo servizio di Machine Learning influisca sulla scelta della modalità di serving da implementare.
A volte gli utenti possono aspettare giorni, persino settimane. Altre volte, un secondo è troppo.
Più bassa è la latenza attesa, maggiori diventano le sfide di engineering e i costi del servizio. Quindi evita l’over-engineering e allinea il design del tuo servizio di ML a ciò che gli utenti richiedono e sono disposti a pagare.
Per esempio, supponi di creare un servizio di ML per analizzare e riassumere grandi documenti .pdf. Se gli utenti ti dicono che vorrebbero ricevere i risultati del servizio entro 5 minuti dalla richiesta, la modalità di serving più ragionevole per questo caso d’uso sarebbe:
Questo esercizio fa parte del corso
Deployment e ciclo di vita in MLOps
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio