1. Nauka
  2. /
  3. Kursy
  4. /
  5. HR Analytics: Przewidywanie rotacji pracowników w Pythonie

Connected

ćwiczenie

Podział danych pracowników

Przeuczenie modelu (overfitting) to częsty problem w analityce. Pojawia się wtedy, gdy model dobrze radzi sobie na danych, na których był trenowany, ale nie generalizuje na nowych danych.

Podział na zbiór treningowy i testowy pozwala sprawdzić, czy model działa dobrze poza danymi treningowymi: budujesz model na zbiorze treningowym, a następnie weryfikujesz jego działanie na zbiorze testowym.

W tym ćwiczeniu podzielisz zmienne target oraz features na zbiory treningowy i testowy w proporcji 75%/25%.

Instrukcje

100 XP
  • Zaimportuj train_test_split z modułu sklearn.model_selection
  • Użyj funkcji train_test_split(), aby podzielić zbiór danych na część treningową i testową
  • Przypisz 25% obserwacji do zbioru testowego