vtreat op de fietsverhuurdata
In deze oefening maak je one-hot-gecodeerde data frames van de juli/augustus-fietsdata, die je later met xgboost gaat gebruiken.
De data frames bikesJuly en bikesAugust zijn al ingeladen.
Voor je gemak hebben we de variabele vars gedefinieerd met de lijst van variabelekolommen voor het model.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Regressie
Oefeninstructies
- Laad het pakket
vtreat. - Gebruik
designTreatmentsZ()om een treatment plantreatplante maken voor de variabelen invarsop basis vanbikesJuly(de trainingsdata).- Zet de vlag
verbose=FALSEom te voorkomen dat de functie te veel berichten print.
- Zet de vlag
- Vul de lege plekken in om een vector
newvarste maken met alleen de namen van declean- enlev-getransformeerde variabelen. Print deze. - Gebruik
prepare()om een one-hot-gecodeerd trainingsdata framebikesJuly.treatte maken.- Gebruik het argument
varRestrictionsom de variabelen te beperken totnewvars.
- Gebruik het argument
- Gebruik
prepare()om op dezelfde manier een one-hot-gecodeerd testframebikesAugust.treatte maken uitbikesAugust. - Roep
str()aan op beide voorbereide testframes om de structuur te bekijken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# The outcome column
(outcome <- "cnt")
# The input columns
(vars <- c("hr", "holiday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed"))
# Load the package vtreat
___
# Create the treatment plan from bikesJuly (the training data)
treatplan <- ___(___, ___, verbose = FALSE)
# Get the "clean" and "lev" variables from the scoreFrame
(newvars <- treatplan %>%
use_series(scoreFrame) %>%
filter(code %in% ___) %>% # get the rows you care about
use_series(___)) # get the varName column
# Prepare the training data
bikesJuly.treat <- ___(___, ___, varRestriction = ___)
# Prepare the test data
bikesAugust.treat <- ___(___, ___, varRestriction = ___)
# Call str() on the treated data
___
___