1. Nauka
  2. /
  3. Kursy
  4. /
  5. Walidacja modeli w Pythonie

Connected

ćwiczenie

Błąd wynikający z niedouczenia/przeuczenia

Zbiór danych o cukierkach jest wyjątkowo podatny na przeuczenie. Mając zaledwie 85 obserwacji, przeznaczenie 20% na zbiór testowy oznacza utratę sporej ilości cennych danych, które mogłyby posłużyć do budowy modelu. Wyobraź sobie sytuację, w której większość czekoladowych cukierków trafia do zbioru treningowego, a tylko nieliczne do zbioru walidacyjnego. Model mógłby jedynie wychwycić, że czekolada jest istotnym czynnikiem, nie dostrzegając, że inne atrybuty są równie ważne. W tym ćwiczeniu sprawdzisz, jak użycie zbyt wielu cech (kolumn) w modelu lasów losowych może prowadzić do przeuczenia.

Cecha określa, które kolumny zbioru danych są używane w drzewie decyzyjnym. Parametr max_features ogranicza liczbę dostępnych cech.

Instrukcje 1/3

undefined XP
  • 1

    Utwórz model lasów losowych z 25 drzewami, stanem losowym równym 1111 i wartością max_features równą 2. Przeczytaj wyświetlone komunikaty.

  • 2

    Ustaw max_features na 11 (liczbę kolumn w zbiorze danych). Przeczytaj wyświetlone komunikaty.

  • 3

    Ustaw max_features na 4. Przeczytaj wyświetlone komunikaty.