1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z modelami drzewiastymi w R

Connected

ćwiczenie

Unikanie nierównowagi klas

Niektóre dane zawierają bardzo nierównomiernie rozłożone wyniki – jak na przykład zbiór danych dotyczący rzadkiej choroby. Przy losowym podziale możesz trafić na bardzo niekorzystny układ. Wyobraź sobie, że wszystkie rzadkie obserwacje trafiają do zbioru testowego, a żadna do treningowego. To mogłoby zniweczyć cały proces uczenia!

Na szczęście funkcja initial_split() oferuje rozwiązanie tego problemu. W tym ćwiczeniu zaobserwujesz i rozwiążesz tzw. nierównowagę klas.

Kod tworzący obiekt podziału diabetes_split w proporcji 75% zbiór treningowy i 25% zbiór testowy jest już gotowy.

Instrukcje 1/2

undefined XP
  • 1
    • Oblicz proporcję wyników "yes" w zbiorze treningowym i testowym obiektu diabetes_split.
  • 2
    • Przeprojektuj obiekt diabetes_split, zachowując tę samą proporcję zbioru treningowego i testowego, ale tak, aby zmienna outcome była równomiernie rozłożona w obu zbiorach.
    • Oblicz proporcję wyników yes w obu zbiorach danych.