Distribusi nilai variabel keluaran
Melakukan stratifikasi berdasarkan variabel keluaran saat membuat himpunan data pelatihan dan uji memastikan bahwa nilai variabel keluaran memiliki rentang yang serupa pada kedua himpunan data.
Karena data asli dibagi secara acak, stratifikasi mencegah, misalnya, semua rumah mahal di home_sales masuk ke himpunan data uji. Dalam kasus seperti ini, model Anda kemungkinan berkinerja buruk karena dilatih pada rumah yang lebih murah.
Pada latihan ini, Anda akan menghitung statistik ringkasan untuk variabel selling_price pada himpunan data pelatihan dan uji. Tibble home_training dan home_test telah dimuat dari latihan sebelumnya.
Latihan ini adalah bagian dari kursus
Pemodelan dengan tidymodels di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Distribution of selling_price in training data
___ %>%
summarize(min_sell_price = ___,
max_sell_price = ___,
mean_sell_price = ___,
sd_sell_price = ___)