Aan de slagGa gratis aan de slag

De afweging bij resampling

Een groot techbedrijf wil werknemersverloop voorspellen om het behoud te verbeteren. Maar slechts 12% van de werknemers is vertrokken, dus het model wordt vooral getraind op ‘blijven’-gevallen (88%), waardoor het lastig is om vertrekrisico te herkennen.

Om deze scheefheid te corrigeren gebruiken HR-analisten synthetische resampling om meer ‘vertrek’-gevallen te creëren en de data in balans te brengen.

Een belangrijke eis: het model moet loyale werknemers niet ten onrechte als ‘hoog-risico vertrekkers’ classificeren, om onnodige retentie-inspanningen te voorkomen.

Het model wordt beoordeeld op:

  • Training accuracy: correcte voorspellingen op trainingsdata.
  • Test accuracy: correcte voorspellingen op nieuwe data.
  • Precision: hoeveel van de voorspelde vertrekkers daadwerkelijk zijn vertrokken.
Metric Model A (zonder resampling) Model B (met resampling)
Training accuracy 85% 95%
Test Accuracy 82% 85%
Precision 80% 68%

Deze oefening maakt deel uit van de cursus

Geavanceerde kansrekening: Onzekerheid in data

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen