Der Resampling-Trade-off
Ein großes Tech-Unternehmen möchte Mitarbeiterfluktuation vorhersagen, um die Bindung zu verbessern. Allerdings haben nur 12 % der Mitarbeitenden das Unternehmen verlassen, sodass das Modell überwiegend mit "Bleibe"-Fällen (88 %) trainiert wird – das erschwert es, gefährdete Personen zu erkennen.
Um dieses Ungleichgewicht zu beheben, nutzen HR-Analysten synthetisches Resampling, um mehr "Wechsel"-Fälle zu erzeugen und die Daten auszugleichen.
Eine zentrale Anforderung: Das Modell soll loyale Mitarbeitende nicht fälschlicherweise als "Hochrisiko-Wechsler" klassifizieren, um unnötige Bindungsmaßnahmen zu vermeiden.
Das Modell wird bewertet anhand von:
- Training accuracy: korrekte Vorhersagen auf den Trainingsdaten.
- Test accuracy: korrekte Vorhersagen auf neuen Daten.
- Precision: wie viele vorhergesagte Wechsler tatsächlich gewechselt haben.
| Metric | Model A (without resampling) | Model B (with resampling) |
|---|---|---|
| Training accuracy | 85% | 95% |
| Test Accuracy | 82% | 85% |
| Precision | 80% | 68% |
Diese Übung ist Teil des Kurses
Fortgeschrittene Wahrscheinlichkeitsrechnung: Unsicherheit in Daten
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten