De afweging bij resampling
Een groot techbedrijf wil werknemersverloop voorspellen om het behoud te verbeteren. Maar slechts 12% van de werknemers is vertrokken, dus het model wordt vooral getraind op ‘blijven’-gevallen (88%), waardoor het lastig is om vertrekrisico te herkennen.
Om deze scheefheid te corrigeren gebruiken HR-analisten synthetische resampling om meer ‘vertrek’-gevallen te creëren en de data in balans te brengen.
Een belangrijke eis: het model moet loyale werknemers niet ten onrechte als ‘hoog-risico vertrekkers’ classificeren, om onnodige retentie-inspanningen te voorkomen.
Het model wordt beoordeeld op:
- Training accuracy: correcte voorspellingen op trainingsdata.
- Test accuracy: correcte voorspellingen op nieuwe data.
- Precision: hoeveel van de voorspelde vertrekkers daadwerkelijk zijn vertrokken.
| Metric | Model A (zonder resampling) | Model B (met resampling) |
|---|---|---|
| Training accuracy | 85% | 95% |
| Test Accuracy | 82% | 85% |
| Precision | 80% | 68% |
Deze oefening maakt deel uit van de cursus
Geavanceerde kansrekening: Onzekerheid in data
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen