1. Nauka
  2. /
  3. Kursy
  4. /
  5. HR Analytics: Przewidywanie rotacji pracowników w Pythonie

Connected

ćwiczenie

Walidacja krzyżowa z użyciem sklearn

Jak wyjaśniono w rozdziale 2., nadmierne dopasowanie (overfitting) do zbioru danych to częsty problem w analizie danych. Dzieje się tak, gdy model zbyt dokładnie „zapamiętał" dane treningowe – osiąga świetne wyniki na zbiorze, na którym był trenowany, ale słabo radzi sobie z nowymi danymi.

Technika podziału na zbiór treningowy i testowy, którą poznałeś w rozdziale 2., chroni przed nadmiernym dopasowaniem do zbioru treningowego. Jednak strojenie hiperparametrów może prowadzić do nadmiernego dopasowania do zbioru testowego – bo polega właśnie na optymalizacji modelu pod kątem jak najlepszych wyników na tym zbiorze. Dlatego zaleca się walidację modelu na różnych zbiorach testowych. Walidacja krzyżowa k-fold pozwala to osiągnąć:

  • dzieli zbiór danych na część treningową i testową,
  • dopasowuje model, generuje prognozy i oblicza wynik (możesz wybrać dokładność, precyzję, czułość i inne metryki),
  • powtarza ten proces łącznie k razy,
  • zwraca średnią z 10 wyników.

W tym ćwiczeniu zastosujesz walidację krzyżową na naszym zbiorze danych i ocenisz wyniki za pomocą funkcji cross_val_score.

Instrukcje

100 XP
  • Zaimportuj funkcję cross_val_score() służącą do walidacji krzyżowej z modułu sklearn.model_selection.
  • Wyświetl wynik walidacji krzyżowej dla swojego modelu, ustawiając 10 podziałów za pomocą hiperparametru cv.