Einfache logistische Regressionsmodelle erstellen
Der Datensatz donors enthält 93.462 Beispiele von Personen, die ein Spendenmailing für gelähmte Militärveteranen erhalten haben. Die Spalte donated ist 1, wenn die Person als Reaktion auf das Mailing gespendet hat, und sonst 0. Dieses binäre Ergebnis ist die abhängige Variable für das logistische Regressionsmodell.
Die übrigen Spalten sind Merkmale der potenziellen Spenderinnen und Spender, die ihr Spendenverhalten beeinflussen können. Das sind die unabhängigen Variablen des Modells.
Beim Aufbau eines Regressionsmodells ist es oft hilfreich, eine Hypothese darüber zu bilden, welche unabhängigen Variablen die abhängige Variable vorhersagen. Die Spalte bad_address, die für eine ungültige Postadresse auf 1 gesetzt ist und sonst 0, scheint die Chance auf eine Spende zu verringern. Ebenso könnte man vermuten, dass religiöses Interesse (interest_religion) und Interesse an Veteranenangelegenheiten (interest_veterans) mit höherer Spendenbereitschaft einhergehen.
In dieser Übung verwendest du diese drei Faktoren, um ein einfaches Modell des Spendenverhaltens zu erstellen. Der Datensatz donors steht dir dafür zur Verfügung.
Diese Übung ist Teil des Kurses
Überwachtes Lernen in R: Klassifikation
Anleitung zur Übung
- Untersuche
donorsmit der Funktionstr(). - Zähle die Häufigkeit der Ausprägungen der Variablen
donatedmit der Funktiontable(). - Schätze ein logistisches Regressionsmodell mit der Formularschnittstelle und den drei zuvor beschriebenen unabhängigen Variablen.
- Rufe
glm()mit der Formel als erstem Argument und dem Data-Frame alsdata-Argument auf. - Speichere das Ergebnis als
donation_model.
- Rufe
- Fasse das Modellobjekt mit
summary()zusammen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Examine the dataset to identify potential independent variables
# Explore the dependent variable
# Build the donation model
donation_model <- glm(___,
data = ___, family = "___")
# Summarize the model results