De afweging bij resampling

Een groot techbedrijf wil werknemersverloop voorspellen om het behoud te verbeteren. Maar slechts 12% van de werknemers is vertrokken, dus het model wordt vooral getraind op ‘blijven’-gevallen (88%), waardoor het lastig is om vertrekrisico te herkennen.

Om deze scheefheid te corrigeren gebruiken HR-analisten synthetische resampling om meer ‘vertrek’-gevallen te creëren en de data in balans te brengen.

Een belangrijke eis: het model moet loyale werknemers niet ten onrechte als ‘hoog-risico vertrekkers’ classificeren, om onnodige retentie-inspanningen te voorkomen.

Het model wordt beoordeeld op:

Training accuracy: correcte voorspellingen op trainingsdata.
Test accuracy: correcte voorspellingen op nieuwe data.
Precision: hoeveel van de voorspelde vertrekkers daadwerkelijk zijn vertrokken.

Metric	Model A (zonder resampling)	Model B (met resampling)
Training accuracy	85%	95%
Test Accuracy	82%	85%
Precision	80%	68%

Deze oefening maakt deel uit van de cursus

Geavanceerde kansrekening: Onzekerheid in data

Bekijk cursus

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Begin oefening