vtreat data penyewaan sepeda
Dalam latihan ini, Anda akan membuat data frame one-hot-encoded dari data sepeda bulan Juli/Agustus, untuk digunakan dengan xgboost nanti.
Data frame bikesJuly dan bikesAugust telah dimuat sebelumnya.
Untuk memudahkan, kami telah mendefinisikan variabel vars dengan daftar kolom variabel untuk model.
Latihan ini adalah bagian dari kursus
Supervised Learning di R: Regresi
Petunjuk latihan
- Muat paket
vtreat. - Gunakan
designTreatmentsZ()untuk membuat rencana perlakuantreatplanuntuk variabel dalamvarsdaribikesJuly(data pelatihan).- Atur flag
verbose=FALSEagar fungsi tidak mencetak terlalu banyak pesan.
- Atur flag
- Lengkapi bagian kosong untuk membuat vektor
newvarsyang hanya berisi nama variabel hasil transformasicleandanlev. Cetak vektor tersebut. - Gunakan
prepare()untuk membuat data frame pelatihan one-hot-encodedbikesJuly.treat.- Gunakan argumen
varRestrictionsuntuk membatasi variabel yang akan Anda gunakan padanewvars.
- Gunakan argumen
- Gunakan
prepare()untuk membuat frame uji one-hot-encodedbikesAugust.treatdaribikesAugustdengan cara yang sama. - Panggil
str()pada kedua frame uji yang telah disiapkan untuk melihat strukturnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# The outcome column
(outcome <- "cnt")
# The input columns
(vars <- c("hr", "holiday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed"))
# Load the package vtreat
___
# Create the treatment plan from bikesJuly (the training data)
treatplan <- ___(___, ___, verbose = FALSE)
# Get the "clean" and "lev" variables from the scoreFrame
(newvars <- treatplan %>%
use_series(scoreFrame) %>%
filter(code %in% ___) %>% # get the rows you care about
use_series(___)) # get the varName column
# Prepare the training data
bikesJuly.treat <- ___(___, ___, varRestriction = ___)
# Prepare the test data
bikesAugust.treat <- ___(___, ___, varRestriction = ___)
# Call str() on the treated data
___
___