Il compromesso del resampling

Una grande tech company vuole prevedere il turnover dei dipendenti per migliorare la retention. Ma solo il 12% dei dipendenti se n’è andato, quindi il modello è addestrato soprattutto su casi di "resto" (88%), rendendo difficile individuare chi è a rischio di lasciare.

Per correggere questo squilibrio, gli analisti HR usano il resampling sintetico per creare più casi di "leave" e bilanciare i dati.

Un requisito chiave: il modello deve evitare di classificare erroneamente i dipendenti leali come "ad alto rischio di abbandono", per non sprecare sforzi di retention.

Il modello viene valutato usando:

Training accuracy: previsioni corrette sui dati di training.
Test accuracy: previsioni corrette su nuovi dati.
Precision: quanti tra i previsti come in uscita hanno effettivamente lasciato.

Metric	Model A (without resampling)	Model B (with resampling)
Training accuracy	85%	95%
Test Accuracy	82%	85%
Precision	80%	68%

Questo esercizio fa parte del corso

Probabilità avanzata: l'incertezza nei dati

Visualizza corso

esercizio interattivo pratico

Trasforma la teoria in pratica con uno dei nostri esercizi interattivi

Inizia esercizio