1. Nauka
  2. /
  3. Kursy
  4. /
  5. Preprocessing w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Próbkowanie warstwowe

Wiesz już, że rozkład etykiet klas w kolumnie category_desc zbioru danych volunteer jest nierównomierny. Jeśli chcesz wytrenować model do przewidywania wartości category_desc, musisz zadbać o to, by model był trenowany na próbce danych reprezentatywnej dla całego zbioru. Próbkowanie warstwowe to skuteczny sposób, aby to osiągnąć!

Instrukcje

100 XP
  • Utwórz DataFrame cech, X, zawierający wszystkie kolumny oprócz category_desc.
  • Utwórz DataFrame etykiet, y, na podstawie kolumny category_desc.
  • Podziel X i y na zbiór treningowy i testowy, dbając o to, by rozkład klas w etykietach był taki sam w obu zbiorach.
  • Wyświetl etykiety i ich liczebności w y_train, używając metody .value_counts().