IniziaInizia gratis

Usa vtreat sui dati di noleggio bici

In questo esercizio creerai data frame one-hot-encoded dei dati di luglio/agosto sui noleggi di bici, da usare più avanti con xgboost.

I data frame bikesJuly e bikesAugust sono già stati caricati.

Per comodità, abbiamo definito la variabile vars con l’elenco delle colonne di variabili per il modello.

Questo esercizio fa parte del corso

Supervised Learning in R: Regression

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il pacchetto vtreat.
  • Usa designTreatmentsZ() per creare un piano di trattamento treatplan per le variabili in vars a partire da bikesJuly (i dati di training).
    • Imposta il flag verbose=FALSE per evitare che la funzione stampi troppi messaggi.
  • Completa gli spazi vuoti per creare un vettore newvars che contenga solo i nomi delle variabili trasformate clean e lev. Stampalo.
  • Usa prepare() per creare un data frame di training one-hot-encoded bikesJuly.treat.
    • Usa l’argomento varRestrictions per limitare le variabili utilizzate a newvars.
  • Usa prepare() per creare, allo stesso modo, un frame di test one-hot-encoded bikesAugust.treat a partire da bikesAugust.
  • Chiama str() su entrambi i frame preparati per vedere la struttura.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# The outcome column
(outcome <- "cnt")

# The input columns
(vars <- c("hr", "holiday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed"))

# Load the package vtreat
___

# Create the treatment plan from bikesJuly (the training data)
treatplan <- ___(___, ___, verbose = FALSE)

# Get the "clean" and "lev" variables from the scoreFrame
(newvars <- treatplan %>%
  use_series(scoreFrame) %>%        
  filter(code %in% ___) %>%  # get the rows you care about
  use_series(___))           # get the varName column

# Prepare the training data
bikesJuly.treat <- ___(___, ___,  varRestriction = ___)

# Prepare the test data
bikesAugust.treat <- ___(___, ___,  varRestriction = ___)

# Call str() on the treated data
___
___
Modifica ed esegui il codice