Podział danych

Aby właściwie ocenić model, można podzielić dane na zbiór treningowy i testowy. Zbiór treningowy zawiera dane, na których budowany jest model, a zbiór testowy służy do jego oceny. Podział jest losowy, jednak gdy częstość występowania celu jest niska, warto zastosować stratyfikację – tzn. zadbać o to, by oba zbiory zawierały równy odsetek obserwacji docelowych.

W tym ćwiczeniu podzielisz dane ze stratyfikacją i sprawdzisz, czy zbiory treningowy i testowy mają równą częstość występowania celu. Metoda train_test_split została już zaimportowana, a ramki danych X i y są dostępne w twoim środowisku pracy.

Podziel te ramki danych za pomocą metody train_test_split ze stratyfikacją. Upewnij się, że zbiory treningowy i testowy mają ten sam rozmiar oraz równą częstość występowania celu.
Oblicz częstość występowania celu w zbiorze treningowym. Jest to liczba celów w zbiorze treningowym podzielona przez liczbę obserwacji w tym zbiorze.
Oblicz częstość występowania celu w zbiorze testowym.

ćwiczenie

Podział danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie