O dilema do reamostragem
Uma grande empresa de tecnologia quer prever o churn de funcionários para melhorar a retenção. Mas apenas 12% dos funcionários saíram, então o modelo é treinado principalmente em casos de "permanência" (88%), o que dificulta detectar quem corre risco de sair.
Para corrigir esse desbalanceamento, analistas de RH usam reamostragem sintética para criar mais casos de "saída" e equilibrar os dados.
Um requisito essencial: o modelo deve evitar classificar erroneamente funcionários leais como "alto risco de saída", para não desperdiçar esforços de retenção.
O modelo é avaliado usando:
- Acurácia no treino: previsões corretas nos dados de treino.
- Acurácia no teste: previsões corretas em dados novos.
- Precisão (precision): quantos dos previstos como saindo realmente saíram.
| Métrica | Modelo A (sem reamostragem) | Modelo B (com reamostragem) |
|---|---|---|
| Acurácia no treino | 85% | 95% |
| Acurácia no teste | 82% | 85% |
| Precisão | 80% | 68% |
Este exercício faz parte do curso
Probabilidade Avançada: Incerteza em Dados
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício