Melatih model untuk memprediksi jumlah sewa sepeda
Dalam latihan ini, Anda akan membangun model untuk memprediksi jumlah sepeda yang disewa dalam satu jam sebagai fungsi dari cuaca, jenis hari (hari libur, hari kerja, atau akhir pekan), dan waktu dalam sehari. Anda akan melatih model pada data bulan Juli.
Data frame memiliki kolom:
cnt: jumlah sepeda yang disewa pada jam tersebut (keluaran)hr: jam dalam sehari (0–23, bertipe faktor)holiday: TRUE/FALSEworkingday: TRUE jika bukan hari libur maupun akhir pekan, selain itu FALSEweathersit: kategorikal, "Clear to partly cloudy"/"Light Precipitation"/"Misty"temp: suhu ternormalisasi dalam Celsiusatemp: suhu "feels like" ternormalisasi dalam Celsiushum: kelembapan ternormalisasiwindspeed: kecepatan angin ternormalisasiinstant: indeks waktu — jumlah jam sejak awal himpunan data (bukan variabel)mnthdanyr: indeks bulan dan tahun (bukan variabel)
Ingat bahwa Anda harus menentukan family = poisson atau family = quasipoisson saat menggunakan glm() (docs) untuk menyesuaikan model hitungan.
Karena ada banyak variabel masukan, demi kemudahan kita akan menyatakan keluaran dan masukan dalam variabel, dan menggunakan paste() (docs) untuk menyusun string yang merepresentasikan formula model.
Data frame bikesJuly tersedia untuk digunakan. Nama variabel keluaran dan variabel masukan juga telah dimuat masing-masing sebagai variabel outcome dan vars.
Latihan ini adalah bagian dari kursus
Supervised Learning di R: Regresi
Petunjuk latihan
- Lengkapi bagian yang kosong untuk membuat formula
fmlayang menyatakancntsebagai fungsi dari input. Cetak hasilnya. - Hitung rataan (
mean()) dan varians (var()) daribikesJuly$cnt.- Haruskah Anda menggunakan regresi poisson atau quasipoisson?
- Gunakan
glm()untuk menyesuaikan model pada databikesJuly:bike_model. - Gunakan
glance()untuk melihat statistik kecocokan model. Simpan keluaranglance()ke variabelperf. - Hitung pseudo-R-squared dari model.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# bikesJuly is available
str(bikesJuly)
# The outcome column
outcome
# The inputs to use
vars
# Create the formula string for bikes rented as a function of the inputs
(fmla <- paste(___, "~", paste(___, collapse = " + ")))
# Calculate the mean and variance of the outcome
(mean_bikes <- ___)
(var_bikes <- ___)
# Fit the model
bike_model <- ___
# Call glance
(perf <- ___)
# Calculate pseudo-R-squared
(pseudoR2 <- ___)