Algoritmo de regressão logística
Vamos nos aprofundar nos aspectos internos e implementar um algoritmo de regressão logística. Como a função glm()
do R é muito complexa, você se limitará a implementar a regressão logística simples para um único conjunto de dados.
Em vez de usar a soma dos quadrados como métrica, queremos usar a probabilidade. No entanto, a probabilidade de logaritmo é mais estável do ponto de vista computacional, portanto, vamos usá-la. Na verdade, há mais uma alteração: como queremos maximizar a probabilidade de log, mas o optim()
tem como padrão encontrar valores mínimos, é mais fácil calcular a probabilidade de log negativo.
O valor de log-verossimilhança para cada observação é
A métrica a ser calculada é menos a soma dessas contribuições de log-verossimilhança.
Os valores explicativos (a coluna time_since_last_purchase
de churn
) estão disponíveis em x_actual
.
Os valores de resposta (a coluna has_churned
de churn
) estão disponíveis em y_actual
.
Este exercício faz parte do curso
Regressão intermediária no R
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Set the intercept to 1
intercept <- ___
# Set the slope to 0.5
slope <- ___
# Calculate the predicted y values
y_pred <- ___
# Calculate the log-likelihood for each term
log_likelihoods <- ___
# Calculate minus the sum of the log-likelihoods for each term
___