CommencerCommencer gratuitement

Construire des modèles de régression logistique simples

L'ensemble de données donors contient 93 462 exemples de personnes envoyées par courrier dans le cadre d'une collecte de fonds en faveur de vétérans militaires paralysés. La colonne donated correspond à 1 si la personne a fait un don en réponse au mailing et à 0 dans le cas contraire. Ce résultat binaire sera la variable dépendante du modèle de régression logistique.

Les autres colonnes sont des caractéristiques des donateurs potentiels susceptibles d'influencer leur comportement en matière de don. Il s'agit des variables indépendantes du modèle.

Lors de l'élaboration d'un modèle de régression, il est souvent utile de formuler une hypothèse sur les variables indépendantes qui permettront de prédire la variable dépendante. La colonne bad_address, dont la valeur est 1 en cas d'adresse postale non valide et 0 dans le cas contraire, semble réduire les chances d'obtenir un don. De même, on pourrait penser que l'intérêt religieux (interest_religion) et l'intérêt pour les affaires des anciens combattants (interest_veterans) seraient associés à des dons de charité plus importants.

Dans cet exercice, vous utiliserez ces trois facteurs pour créer un modèle simple de comportement de don. Le jeu de données donors est à votre disposition.

Cet exercice fait partie du cours

Apprentissage supervisé en R : Classification

Afficher le cours

Instructions

  • Examinez donors à l'aide de la fonction str().

  • Comptez le nombre d'occurrences de chaque niveau de la variable donated à l'aide de la fonction table().

  • Ajustez un modèle de régression logistique à l'aide de l'interface de formule avec les trois variables indépendantes décrites précédemment.

    • Appelez glm() avec la formule comme premier argument et le cadre de données comme argument data.

    • Enregistrez le résultat sous donation_model.

  • Résumez l'objet du modèle à l'aide de summary().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Examine the dataset to identify potential independent variables


# Explore the dependent variable


# Build the donation model
donation_model <- glm(___, 
                      data = ___, family = "___")

# Summarize the model results
Modifier et exécuter le code