Skalakan data untuk regresi lasso
Untuk menyiapkan pemodelan regresi lasso, penting untuk men-skala data agar semua fitur dapat dibandingkan satu sama lain. Seluruh himpunan data penjualan rumah King County, California tersedia di house_sales_df.
Dalam latihan ini, Anda akan men-skala variabel target, price, secara terpisah sebelum membagi data menjadi himpunan latih dan uji. Hal ini karena cara kerja recipe tidymodels. Kita tidak menyertakan transformasi variabel target di dalam recipe.
Paket tidyverse dan tidymodels telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reduksi Dimensi di R
Petunjuk latihan
- Skala variabel target
pricedihouse_sales_dfmenggunakanscale(). - Buat himpunan latih dan uji dengan 80% data di himpunan latih.
- Buat recipe menggunakan data latih untuk men-skala semua prediktor numerik.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Scale the target variable
house_sales_df <- ___ %>%
mutate(price = as.vector(___(___)))
# Create the training and testing sets
split <- ___(___, prop = ___)
train <- ___ %>% ___()
test <- ___ %>% ___()
# Create recipe to scale the predictors
lasso_recipe <-
___(___ ~ ., data = ___) %>%
___(___())