Eenvoudige logistieke regressiemodellen bouwen
De donors-gegevensset bevat 93.462 voorbeelden van mensen die een fondsenwervingsmailing ontvingen voor verlamde militaire veteranen. De kolom donated is 1 als de persoon een donatie deed naar aanleiding van de mailing en anders 0. Deze binaire uitkomst is de afhankelijke variabele voor het logistieke regressiemodel.
De overige kolommen zijn kenmerken van de potentiële donoren die hun geefgedrag kunnen beïnvloeden. Dit zijn de onafhankelijke variabelen van het model.
Bij het bouwen van een regressiemodel is het vaak handig om een hypothese te formuleren over welke onafhankelijke variabelen voorspellend zullen zijn voor de afhankelijke variabele. De kolom bad_address, die 1 is voor een onjuist postadres en anders 0, lijkt de kans op een donatie te verlagen. Evenzo zou je kunnen vermoeden dat religieuze interesse (interest_religion) en interesse in veteranenzaken (interest_veterans) samenhangen met meer liefdadigheid.
In deze oefening gebruik je deze drie factoren om een eenvoudig model van geefgedrag te maken. De gegevensset donors is voor je beschikbaar.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Classificatie
Oefeninstructies
- Bekijk
donorsmet de functiestr(). - Tel het aantal voorkomens van elk niveau van de variabele
donatedmet de functietable(). - Fit een logistiek regressiemodel met de formule-interface en de drie eerder beschreven onafhankelijke variabelen.
- Roep
glm()aan met de formule als eerste argument en de data frame als hetdata-argument. - Sla het resultaat op als
donation_model.
- Roep
- Vat het modelobject samen met
summary().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Examine the dataset to identify potential independent variables
# Explore the dependent variable
# Build the donation model
donation_model <- glm(___,
data = ___, family = "___")
# Summarize the model results