O dilema do reamostragem

Uma grande empresa de tecnologia quer prever o churn de funcionários para melhorar a retenção. Mas apenas 12% dos funcionários saíram, então o modelo é treinado principalmente em casos de "permanência" (88%), o que dificulta detectar quem corre risco de sair.

Para corrigir esse desbalanceamento, analistas de RH usam reamostragem sintética para criar mais casos de "saída" e equilibrar os dados.

Um requisito essencial: o modelo deve evitar classificar erroneamente funcionários leais como "alto risco de saída", para não desperdiçar esforços de retenção.

O modelo é avaliado usando:

Acurácia no treino: previsões corretas nos dados de treino.
Acurácia no teste: previsões corretas em dados novos.
Precisão (precision): quantos dos previstos como saindo realmente saíram.

Métrica	Modelo A (sem reamostragem)	Modelo B (com reamostragem)
Acurácia no treino	85%	95%
Acurácia no teste	82%	85%
Precisão	80%	68%

Este exercício faz parte do curso

Probabilidade Avançada: Incerteza em Dados

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício