Construire des modèles de régression logistique simples
L'ensemble de données donors
contient 93 462 exemples de personnes envoyées par courrier dans le cadre d'une collecte de fonds en faveur de vétérans militaires paralysés. La colonne donated
correspond à 1
si la personne a fait un don en réponse au mailing et à 0
dans le cas contraire. Ce résultat binaire sera la variable dépendante du modèle de régression logistique.
Les autres colonnes sont des caractéristiques des donateurs potentiels susceptibles d'influencer leur comportement en matière de don. Il s'agit des variables indépendantes du modèle.
Lors de l'élaboration d'un modèle de régression, il est souvent utile de formuler une hypothèse sur les variables indépendantes qui permettront de prédire la variable dépendante. La colonne bad_address
, dont la valeur est 1
en cas d'adresse postale non valide et 0
dans le cas contraire, semble réduire les chances d'obtenir un don. De même, on pourrait penser que l'intérêt religieux (interest_religion
) et l'intérêt pour les affaires des anciens combattants (interest_veterans
) seraient associés à des dons de charité plus importants.
Dans cet exercice, vous utiliserez ces trois facteurs pour créer un modèle simple de comportement de don. Le jeu de données donors
est à votre disposition.
Cet exercice fait partie du cours
Apprentissage supervisé en R : Classification
Instructions
Examinez
donors
à l'aide de la fonctionstr()
.Comptez le nombre d'occurrences de chaque niveau de la variable
donated
à l'aide de la fonctiontable()
.Ajustez un modèle de régression logistique à l'aide de l'interface de formule avec les trois variables indépendantes décrites précédemment.
Appelez
glm()
avec la formule comme premier argument et le cadre de données comme argumentdata
.Enregistrez le résultat sous
donation_model
.
Résumez l'objet du modèle à l'aide de
summary()
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Examine the dataset to identify potential independent variables
# Explore the dependent variable
# Build the donation model
donation_model <- glm(___,
data = ___, family = "___")
# Summarize the model results