1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning in the Tidyverse

Connected

Cvičení

Rozdělení dat na trénovací a testovací sadu

V disciplinovaném workflow strojového učení je zásadní vyčlenit část dat (testovací data) a nevyužívat je při žádném rozhodování. Díky tomu můžeš na konci nezávisle vyhodnotit výkonnost svého modelu. Zbývající data, trénovací data, slouží k sestavení a výběru nejlepšího modelu.

V tomto cvičení použiješ balíček rsample k rozdělení dat gapminder na trénovací a testovací sadu.

Poznámka: Protože jde o náhodné rozdělení dat, je dobrým zvykem před rozdělením nastavit seed.

Pokyny

100 XP
  • Rozděl data na 75 % trénovacích a 25 % testovacích pomocí funkce initial_split() a výsledek přiřaď do proměnné gap_split.
  • Pomocí funkce training() extrahuj trénovací datový rámec z gap_split.
  • Pomocí funkce testing() extrahuj testovací datový rámec z gap_split.
  • Ověř, že dimenze nových datových rámců odpovídají očekávání – použij funkci dim() na training_data a testing_data.