LoslegenKostenlos loslegen

Einfache logistische Regressionsmodelle erstellen

Der Datensatz donors enthält 93.462 Beispiele von Personen, die ein Spendenmailing für gelähmte Militärveteranen erhalten haben. Die Spalte donated ist 1, wenn die Person als Reaktion auf das Mailing gespendet hat, und sonst 0. Dieses binäre Ergebnis ist die abhängige Variable für das logistische Regressionsmodell.

Die übrigen Spalten sind Merkmale der potenziellen Spenderinnen und Spender, die ihr Spendenverhalten beeinflussen können. Das sind die unabhängigen Variablen des Modells.

Beim Aufbau eines Regressionsmodells ist es oft hilfreich, eine Hypothese darüber zu bilden, welche unabhängigen Variablen die abhängige Variable vorhersagen. Die Spalte bad_address, die für eine ungültige Postadresse auf 1 gesetzt ist und sonst 0, scheint die Chance auf eine Spende zu verringern. Ebenso könnte man vermuten, dass religiöses Interesse (interest_religion) und Interesse an Veteranenangelegenheiten (interest_veterans) mit höherer Spendenbereitschaft einhergehen.

In dieser Übung verwendest du diese drei Faktoren, um ein einfaches Modell des Spendenverhaltens zu erstellen. Der Datensatz donors steht dir dafür zur Verfügung.

Diese Übung ist Teil des Kurses

Überwachtes Lernen in R: Klassifikation

Kurs anzeigen

Anleitung zur Übung

  • Untersuche donors mit der Funktion str().
  • Zähle die Häufigkeit der Ausprägungen der Variablen donated mit der Funktion table().
  • Schätze ein logistisches Regressionsmodell mit der Formularschnittstelle und den drei zuvor beschriebenen unabhängigen Variablen.
    • Rufe glm() mit der Formel als erstem Argument und dem Data-Frame als data-Argument auf.
    • Speichere das Ergebnis als donation_model.
  • Fasse das Modellobjekt mit summary() zusammen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Examine the dataset to identify potential independent variables


# Explore the dependent variable


# Build the donation model
donation_model <- glm(___, 
                      data = ___, family = "___")

# Summarize the model results
Code bearbeiten und ausführen