Ajuste um modelo para prever contagens de aluguel de bikes
Neste exercício, você vai construir um modelo para prever o número de bikes alugadas em uma hora em função do clima, do tipo de dia (feriado, dia útil ou fim de semana) e do horário. Você vai treinar o modelo com dados do mês de julho.
O data frame tem as colunas:
cnt: número de bikes alugadas naquela hora (o desfecho)hr: hora do dia (0-23, como fator)holiday: TRUE/FALSEworkingday: TRUE se não for feriado nem fim de semana; caso contrário, FALSEweathersit: categórica, "Clear to partly cloudy"/"Light Precipitation"/"Misty"temp: temperatura normalizada em Celsiusatemp: temperatura "sensação" normalizada em Celsiushum: umidade normalizadawindspeed: velocidade do vento normalizadainstant: índice temporal — número de horas desde o início do conjunto de dados (não é variável)mntheyr: índices de mês e ano (não são variáveis)
Lembre-se de especificar family = poisson ou family = quasipoisson ao usar glm() (docs) para ajustar um modelo de contagem.
Como há muitas variáveis de entrada, por conveniência vamos especificar o desfecho e as entradas em variáveis e usar paste() (docs) para montar uma string que representa a fórmula do modelo.
O data frame bikesJuly está disponível para uso. Os nomes da variável de desfecho e das variáveis de entrada também foram carregados nas variáveis outcome e vars, respectivamente.
Este exercício faz parte do curso
Aprendizado Supervisionado em R: Regressão
Instruções do exercício
- Preencha as lacunas para criar a fórmula
fmlaexpressandocntcomo função das entradas. Imprima-a. - Calcule a média (
mean()) e a variância (var()) debikesJuly$cnt.- Você deve usar regressão poisson ou quasipoisson?
- Use
glm()para ajustar um modelo aos dados debikesJuly:bike_model. - Use
glance()para ver as estatísticas de ajuste do modelo. Atribua a saída deglance()à variávelperf. - Calcule o pseudo-R-quadrado do modelo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# bikesJuly is available
str(bikesJuly)
# The outcome column
outcome
# The inputs to use
vars
# Create the formula string for bikes rented as a function of the inputs
(fmla <- paste(___, "~", paste(___, collapse = " + ")))
# Calculate the mean and variance of the outcome
(mean_bikes <- ___)
(var_bikes <- ___)
# Fit the model
bike_model <- ___
# Call glance
(perf <- ___)
# Calculate pseudo-R-squared
(pseudoR2 <- ___)