1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with Tree-Based Models in R

Connected

cvičení

Od nuly k hrdinovi

Už ovládáš tvorbu specifikace modelu i rozdělení dat na trénovací a testovací sady. Víš také, jak předejít nerovnoměrnému zastoupení tříd při splitu. Teď je čas spojit vše, co jsi se v předchozí lekci naučil/a, a sestavit model pouze na trénovacích datech!

Budeš budovat skutečný machine learning pipeline. Ten se skládá z vytvoření specifikace modelu, rozdělení dat na trénovací a testovací sadu a v neposlední řadě z natrénování modelu na trénovacích datech. Jdeme na to!

Pokyny

100 XP
  • Vytvoř diabetes_split — split, ve kterém trénovací sada obsahuje tři čtvrtiny všech řádků datasetu diabetes a kde mají trénovací i testovací sada podobné rozložení hodnot proměnné outcome.
  • Vytvoř specifikaci rozhodovacího stromu pro svůj model s použitím enginu rpart a ulož ji jako tree_spec.
  • Natrénuj model model_trained na trénovacích datech ze diabetes_split, kde outcome je cílová proměnná a bmi a skin_thickness jsou prediktory.