1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modeling with tidymodels in R

Connected

cvičení

Vytvoření trénovací a testovací datové sady

Balíček rsample je navržený pro vytváření trénovacích a testovacích datových sad. Testovací datová sada je důležitá pro odhadování výkonu natrénovaného modelu na nových datech. Zároveň chrání před přetrénováním, kdy si model zapamatuje vzory specifické pouze pro trénovací data a na nových datech si vede špatně.

V tomto cvičení vytvoříš trénovací a testovací datové sady z dat home_sales. Tato data obsahují informace o domech prodaných v oblasti Seattlu ve státě Washington v letech 2015 a 2016.

Cílová proměnná v těchto datech je selling_price.

Balíček tidymodels bude přednahrán v každém cvičení tohoto kurzu. Tibble home_sales je rovněž připraven k použití.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Vytvoř objekt rsample s názvem home_split, který obsahuje instrukce pro náhodné rozdělení dat home_sales na trénovací a testovací datovou sadu.
  • Přiřaď 70 % dat do trénovací sady a výsledky stratifikuj podle proměnné selling_price.