MulaiMulai sekarang secara gratis

Melatih model untuk memprediksi jumlah sewa sepeda

Dalam latihan ini, Anda akan membangun model untuk memprediksi jumlah sepeda yang disewa dalam satu jam sebagai fungsi dari cuaca, jenis hari (hari libur, hari kerja, atau akhir pekan), dan waktu dalam sehari. Anda akan melatih model pada data bulan Juli.

Data frame memiliki kolom:

  • cnt: jumlah sepeda yang disewa pada jam tersebut (keluaran)
  • hr: jam dalam sehari (0–23, bertipe faktor)
  • holiday: TRUE/FALSE
  • workingday: TRUE jika bukan hari libur maupun akhir pekan, selain itu FALSE
  • weathersit: kategorikal, "Clear to partly cloudy"/"Light Precipitation"/"Misty"
  • temp: suhu ternormalisasi dalam Celsius
  • atemp: suhu "feels like" ternormalisasi dalam Celsius
  • hum: kelembapan ternormalisasi
  • windspeed: kecepatan angin ternormalisasi
  • instant: indeks waktu — jumlah jam sejak awal himpunan data (bukan variabel)
  • mnth dan yr: indeks bulan dan tahun (bukan variabel)

Ingat bahwa Anda harus menentukan family = poisson atau family = quasipoisson saat menggunakan glm() (docs) untuk menyesuaikan model hitungan.

Karena ada banyak variabel masukan, demi kemudahan kita akan menyatakan keluaran dan masukan dalam variabel, dan menggunakan paste() (docs) untuk menyusun string yang merepresentasikan formula model.

Data frame bikesJuly tersedia untuk digunakan. Nama variabel keluaran dan variabel masukan juga telah dimuat masing-masing sebagai variabel outcome dan vars.

Latihan ini adalah bagian dari kursus

Supervised Learning di R: Regresi

Lihat Kursus

Petunjuk latihan

  • Lengkapi bagian yang kosong untuk membuat formula fmla yang menyatakan cnt sebagai fungsi dari input. Cetak hasilnya.
  • Hitung rataan (mean()) dan varians (var()) dari bikesJuly$cnt.
    • Haruskah Anda menggunakan regresi poisson atau quasipoisson?
  • Gunakan glm() untuk menyesuaikan model pada data bikesJuly: bike_model.
  • Gunakan glance() untuk melihat statistik kecocokan model. Simpan keluaran glance() ke variabel perf.
  • Hitung pseudo-R-squared dari model.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# bikesJuly is available
str(bikesJuly)

# The outcome column
outcome 

# The inputs to use
vars 

# Create the formula string for bikes rented as a function of the inputs
(fmla <- paste(___, "~", paste(___, collapse = " + ")))

# Calculate the mean and variance of the outcome
(mean_bikes <- ___)
(var_bikes <- ___)

# Fit the model
bike_model <- ___

# Call glance
(perf <- ___)

# Calculate pseudo-R-squared
(pseudoR2 <- ___)
Edit dan Jalankan Kode