1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning in R: Regression

Connected

Cvičení

Vyhodnocení postupu modelování pomocí n-násobné křížové validace

V tomto cvičení použiješ splitPlan, plán 3-násobné křížové validace z předchozího cvičení, k vytvoření predikcí z modelu, který předpovídá mpg$cty na základě mpg$hwy.

Pokud je dframe trénovací datová sada, jedním ze způsobů, jak do ní přidat sloupec s predikcemi z křížové validace, je následující postup:

# Initialize a column of the appropriate length
dframe$pred.cv <- 0 

# k is the number of folds
# splitPlan is the cross validation plan

for(i in 1:k) {
  # Get the ith split
  split <- splitPlan[[i]]

  # Build a model on the training data 
  # from this split 
  # (lm, in this case)
  model <- lm(fmla, data = dframe[split$train,])

  # make predictions on the 
  # application data from this split
  dframe$pred.cv[split$app] <- predict(model, newdata = dframe[split$app,])
}

Křížová validace odhaduje, jak dobře bude model sestavený na všech datech fungovat na nových datech. Stejně jako u rozdělení na testovací a trénovací sadu platí, že u kvalitního postupu modelování by měly být výsledky křížové validace a výsledky na trénovacích datech blízko sebe.

Dataový rámec mpg, plán křížové validace splitPlan a funkce rmse() jsou předem načteny.

Pokyny

100 XP
  • Spusť plán 3-násobné křížové validace z splitPlan a ulož predikce do sloupce mpg$pred.cv.
    • Použij lm() a vzorec cty ~ hwy.
  • Vytvoř model lineární regrese na všech datech z mpg (vzorec cty ~ hwy) a přiřaď predikce do mpg$pred.
  • Pomocí rmse() zjisti střední kvadratickou chybu predikcí z plného modelu (mpg$pred). Připomeňme, že rmse() přijímá dva argumenty: předpovězené hodnoty a skutečné výsledky.
  • Zjisti střední kvadratickou chybu predikcí z křížové validace. Jsou obě hodnoty přibližně stejné?