1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do analizy predykcyjnej w Pythonie

Connected

ćwiczenie

Podział danych

Aby właściwie ocenić model, można podzielić dane na zbiór treningowy i testowy. Zbiór treningowy zawiera dane, na których budowany jest model, a zbiór testowy służy do jego oceny. Podział jest losowy, jednak gdy częstość występowania celu jest niska, warto zastosować stratyfikację – tzn. zadbać o to, by oba zbiory zawierały równy odsetek obserwacji docelowych.

W tym ćwiczeniu podzielisz dane ze stratyfikacją i sprawdzisz, czy zbiory treningowy i testowy mają równą częstość występowania celu. Metoda train_test_split została już zaimportowana, a ramki danych X i y są dostępne w twoim środowisku pracy.

Instrukcje

100 XP
  • Podziel te ramki danych za pomocą metody train_test_split ze stratyfikacją. Upewnij się, że zbiory treningowy i testowy mają ten sam rozmiar oraz równą częstość występowania celu.
  • Oblicz częstość występowania celu w zbiorze treningowym. Jest to liczba celów w zbiorze treningowym podzielona przez liczbę obserwacji w tym zbiorze.
  • Oblicz częstość występowania celu w zbiorze testowym.