Il compromesso del resampling
Una grande tech company vuole prevedere il turnover dei dipendenti per migliorare la retention. Ma solo il 12% dei dipendenti se n’è andato, quindi il modello è addestrato soprattutto su casi di "resto" (88%), rendendo difficile individuare chi è a rischio di lasciare.
Per correggere questo squilibrio, gli analisti HR usano il resampling sintetico per creare più casi di "leave" e bilanciare i dati.
Un requisito chiave: il modello deve evitare di classificare erroneamente i dipendenti leali come "ad alto rischio di abbandono", per non sprecare sforzi di retention.
Il modello viene valutato usando:
- Training accuracy: previsioni corrette sui dati di training.
- Test accuracy: previsioni corrette su nuovi dati.
- Precision: quanti tra i previsti come in uscita hanno effettivamente lasciato.
| Metric | Model A (without resampling) | Model B (with resampling) |
|---|---|---|
| Training accuracy | 85% | 95% |
| Test Accuracy | 82% | 85% |
| Precision | 80% | 68% |
Questo esercizio fa parte del corso
Probabilità avanzata: l'incertezza nei dati
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio