Criação de modelos simples de regressão logística
O conjunto de dados donors
contém 93.462 exemplos de pessoas enviadas pelo correio em uma solicitação de arrecadação de fundos para veteranos militares com paralisia. A coluna donated
é 1
se a pessoa fez uma doação em resposta à correspondência e 0
caso contrário. Esse resultado binário será a variável dependente do modelo de regressão logística.
As colunas restantes são características dos possíveis doadores que podem influenciar seu comportamento de doação. Essas são as variáveis independentes do modelo.
Ao criar um modelo de regressão, geralmente é útil formar uma hipótese sobre quais variáveis independentes serão preditivas da variável dependente. A coluna bad_address
, que é definida como 1
para um endereço de correspondência inválido e 0
caso contrário, parece que pode reduzir as chances de uma doação. Da mesma forma, pode-se suspeitar que o interesse religioso (interest_religion
) e o interesse em assuntos de veteranos (interest_veterans
) estariam associados a uma maior doação de caridade.
Neste exercício, você usará esses três fatores para criar um modelo simples de comportamento de doação. O conjunto de dados donors
está disponível para você usar.
Este exercício faz parte do curso
Aprendizagem supervisionada em R: Classificação
Instruções do exercício
Examine o site
donors
usando a funçãostr()
.Conte o número de ocorrências de cada nível da variável
donated
usando a funçãotable()
.Ajuste um modelo de regressão logística usando a interface de fórmula com as três variáveis independentes descritas anteriormente.
Chame
glm()
com a fórmula como seu primeiro argumento e o quadro de dados como o argumentodata
.Salve o resultado como
donation_model
.
Resuma o objeto do modelo com
summary()
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Examine the dataset to identify potential independent variables
# Explore the dependent variable
# Build the donation model
donation_model <- glm(___,
data = ___, family = "___")
# Summarize the model results