Usa vtreat sui dati di noleggio bici
In questo esercizio creerai data frame one-hot-encoded dei dati di luglio/agosto sui noleggi di bici, da usare più avanti con xgboost.
I data frame bikesJuly e bikesAugust sono già stati caricati.
Per comodità, abbiamo definito la variabile vars con l’elenco delle colonne di variabili per il modello.
Questo esercizio fa parte del corso
Supervised Learning in R: Regression
Istruzioni dell'esercizio
- Carica il pacchetto
vtreat. - Usa
designTreatmentsZ()per creare un piano di trattamentotreatplanper le variabili invarsa partire dabikesJuly(i dati di training).- Imposta il flag
verbose=FALSEper evitare che la funzione stampi troppi messaggi.
- Imposta il flag
- Completa gli spazi vuoti per creare un vettore
newvarsche contenga solo i nomi delle variabili trasformatecleanelev. Stampalo. - Usa
prepare()per creare un data frame di training one-hot-encodedbikesJuly.treat.- Usa l’argomento
varRestrictionsper limitare le variabili utilizzate anewvars.
- Usa l’argomento
- Usa
prepare()per creare, allo stesso modo, un frame di test one-hot-encodedbikesAugust.treata partire dabikesAugust. - Chiama
str()su entrambi i frame preparati per vedere la struttura.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# The outcome column
(outcome <- "cnt")
# The input columns
(vars <- c("hr", "holiday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed"))
# Load the package vtreat
___
# Create the treatment plan from bikesJuly (the training data)
treatplan <- ___(___, ___, verbose = FALSE)
# Get the "clean" and "lev" variables from the scoreFrame
(newvars <- treatplan %>%
use_series(scoreFrame) %>%
filter(code %in% ___) %>% # get the rows you care about
use_series(___)) # get the varName column
# Prepare the training data
bikesJuly.treat <- ___(___, ___, varRestriction = ___)
# Prepare the test data
bikesAugust.treat <- ___(___, ___, varRestriction = ___)
# Call str() on the treated data
___
___