IniziaInizia gratis

Il compromesso del resampling

Una grande tech company vuole prevedere il turnover dei dipendenti per migliorare la retention. Ma solo il 12% dei dipendenti se n’è andato, quindi il modello è addestrato soprattutto su casi di "resto" (88%), rendendo difficile individuare chi è a rischio di lasciare.

Per correggere questo squilibrio, gli analisti HR usano il resampling sintetico per creare più casi di "leave" e bilanciare i dati.

Un requisito chiave: il modello deve evitare di classificare erroneamente i dipendenti leali come "ad alto rischio di abbandono", per non sprecare sforzi di retention.

Il modello viene valutato usando:

  • Training accuracy: previsioni corrette sui dati di training.
  • Test accuracy: previsioni corrette su nuovi dati.
  • Precision: quanti tra i previsti come in uscita hanno effettivamente lasciato.
Metric Model A (without resampling) Model B (with resampling)
Training accuracy 85% 95%
Test Accuracy 82% 85%
Precision 80% 68%

Questo esercizio fa parte del corso

Probabilità avanzata: l'incertezza nei dati

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio