Aan de slagGa gratis aan de slag

vtreat op de fietsverhuurdata

In deze oefening maak je one-hot-gecodeerde data frames van de juli/augustus-fietsdata, die je later met xgboost gaat gebruiken.

De data frames bikesJuly en bikesAugust zijn al ingeladen.

Voor je gemak hebben we de variabele vars gedefinieerd met de lijst van variabelekolommen voor het model.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

Cursus bekijken

Oefeninstructies

  • Laad het pakket vtreat.
  • Gebruik designTreatmentsZ() om een treatment plan treatplan te maken voor de variabelen in vars op basis van bikesJuly (de trainingsdata).
    • Zet de vlag verbose=FALSE om te voorkomen dat de functie te veel berichten print.
  • Vul de lege plekken in om een vector newvars te maken met alleen de namen van de clean- en lev-getransformeerde variabelen. Print deze.
  • Gebruik prepare() om een one-hot-gecodeerd trainingsdata frame bikesJuly.treat te maken.
    • Gebruik het argument varRestrictions om de variabelen te beperken tot newvars.
  • Gebruik prepare() om op dezelfde manier een one-hot-gecodeerd testframe bikesAugust.treat te maken uit bikesAugust.
  • Roep str() aan op beide voorbereide testframes om de structuur te bekijken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# The outcome column
(outcome <- "cnt")

# The input columns
(vars <- c("hr", "holiday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed"))

# Load the package vtreat
___

# Create the treatment plan from bikesJuly (the training data)
treatplan <- ___(___, ___, verbose = FALSE)

# Get the "clean" and "lev" variables from the scoreFrame
(newvars <- treatplan %>%
  use_series(scoreFrame) %>%        
  filter(code %in% ___) %>%  # get the rows you care about
  use_series(___))           # get the varName column

# Prepare the training data
bikesJuly.treat <- ___(___, ___,  varRestriction = ___)

# Prepare the test data
bikesAugust.treat <- ___(___, ___,  varRestriction = ___)

# Call str() on the treated data
___
___
Code bewerken en uitvoeren