MulaiMulai sekarang secara gratis

vtreat data penyewaan sepeda

Dalam latihan ini, Anda akan membuat data frame one-hot-encoded dari data sepeda bulan Juli/Agustus, untuk digunakan dengan xgboost nanti.

Data frame bikesJuly dan bikesAugust telah dimuat sebelumnya.

Untuk memudahkan, kami telah mendefinisikan variabel vars dengan daftar kolom variabel untuk model.

Latihan ini adalah bagian dari kursus

Supervised Learning di R: Regresi

Lihat Kursus

Petunjuk latihan

  • Muat paket vtreat.
  • Gunakan designTreatmentsZ() untuk membuat rencana perlakuan treatplan untuk variabel dalam vars dari bikesJuly (data pelatihan).
    • Atur flag verbose=FALSE agar fungsi tidak mencetak terlalu banyak pesan.
  • Lengkapi bagian kosong untuk membuat vektor newvars yang hanya berisi nama variabel hasil transformasi clean dan lev. Cetak vektor tersebut.
  • Gunakan prepare() untuk membuat data frame pelatihan one-hot-encoded bikesJuly.treat.
    • Gunakan argumen varRestrictions untuk membatasi variabel yang akan Anda gunakan pada newvars.
  • Gunakan prepare() untuk membuat frame uji one-hot-encoded bikesAugust.treat dari bikesAugust dengan cara yang sama.
  • Panggil str() pada kedua frame uji yang telah disiapkan untuk melihat strukturnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# The outcome column
(outcome <- "cnt")

# The input columns
(vars <- c("hr", "holiday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed"))

# Load the package vtreat
___

# Create the treatment plan from bikesJuly (the training data)
treatplan <- ___(___, ___, verbose = FALSE)

# Get the "clean" and "lev" variables from the scoreFrame
(newvars <- treatplan %>%
  use_series(scoreFrame) %>%        
  filter(code %in% ___) %>%  # get the rows you care about
  use_series(___))           # get the varName column

# Prepare the training data
bikesJuly.treat <- ___(___, ___,  varRestriction = ___)

# Prepare the test data
bikesAugust.treat <- ___(___, ___,  varRestriction = ___)

# Call str() on the treated data
___
___
Edit dan Jalankan Kode