1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modeling with tidymodels in R

Connected

Cvičení

Rozdělení dat

Prvním krokem každého projektu strojového učení je vytvoření trénovací a testovací datové sady pro trénování a vyhodnocení modelu. Testovací sada poskytuje odhad toho, jak bude model fungovat na nových datech, a pomáhá předcházet přetrénování.

Budeš pracovat s datovou sadou telecom_df, která obsahuje informace o zákaznících telekomunikační společnosti. Výstupní proměnná canceled_service zaznamenává, zda zákazník zrušil svou smlouvu se společností. Prediktory obsahují informace o využívání mobilního telefonu a internetu, typu smlouvy a měsíčních poplatcích.

Tibble telecom_df je již načten do tvé session.

Pokyny

100 XP
  • Vytvoř objekt rsample s názvem telecom_split, který obsahuje instrukce pro náhodné rozdělení dat telecom_df na trénovací a testovací sadu.
    • Přiřaď 75 % dat do trénovací sady a stratifikuj výsledky podle proměnné canceled_service.
  • Předej objekt telecom_split příslušným funkcím z balíčku rsample a vytvoř trénovací a testovací datové sady.
  • Zkontroluj počet řádků v každé sadě tak, že je předáš funkci nrow().