Quando o tempo importa — um pouco
Você aprendeu como a latência aceitável do seu serviço de Machine Learning impacta a escolha do modo de serviço que você vai implementar.
Às vezes, os usuários podem esperar dias, até semanas. Às vezes, um segundo já é demais.
Quanto menor a latência esperada, maiores se tornam os desafios de engenharia e o custo do seu serviço. Portanto, evite over-engineering e alinhe o design do seu serviço de ML ao que os usuários exigem e estão dispostos a pagar.
Por exemplo, imagine que você está criando um serviço de ML para analisar e resumir documentos .pdf grandes. Se seus usuários disserem que gostariam de receber as saídas do seu serviço em até 5 minutos após fazerem uma solicitação, o modo de serviço mais razoável para o seu caso de uso seria:
Este exercício faz parte do curso
Implantação e ciclo de vida em MLOps
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício