1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Marketing Analytics: Predicting Customer Churn in Python

Connected

cvičení

Různé velikosti trénovací sady

Velikost trénovací a testovací sady ovlivňuje výkon modelu. Modely se učí lépe, když mají k dispozici více trénovacích dat. Hrozí ale riziko přetrénování (overfittingu) – model si data „zapamatuje" místo toho, aby se naučil obecné vzory, a pak si nevede dobře na nových datech. Proto je potřeba mít dostatek testovacích dat pro správné vyhodnocení schopnosti modelu zobecňovat. Výsledkem je důležitý kompromis mezi tím, kolik dat použiješ na trénování a kolik si ponecháš na testování.

Dosud jsi používal/a 70 % dat na trénování a 30 % na testování. Teď zkus 80 % dat na trénování a sleduj, jak se tím změní výkon modelu.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Vytvoř trénovací a testovací sady tak, aby 80 % dat bylo použito na trénování a 20 % bylo ponecháno na testování.