Kodierung kategorischer Merkmale
Manchmal enthält ein Datensatz numerische Werte, die ein kategoriales Merkmal darstellen.
Im donors
Datensatz verwendet wealth_rating
Zahlen, um das Wohlstandsniveau des Spenders anzugeben:
- 0 = Unbekannt
- 1 = Niedrig
- 2 = Mittel
- 3 = Hoch
Diese Übung veranschaulicht, wie man diese Art von kategorialen Merkmalen vorbereitet und untersucht ihre Auswirkungen auf ein logistisches Regressionsmodell. Der donors
Datenrahmen steht dir zur Verfügung.
Diese Übung ist Teil des Kurses
Überwachtes Lernen in R: Klassifikation
Anleitung zur Übung
- Erstelle einen Faktor
wealth_levels
aus der numerischenwealth_rating
mit Beschriftungen wie gezeigt, indem du der Funktionfactor()
die Spalte, die du umwandeln möchtest, die einzelnen Ebenen und die Beschriftungen übergibst. - Verwende
relevel()
, um die Referenzkategorie inMedium
zu ändern. Das erste Argument sollte deine neue Spaltefactor
sein. - Erstelle ein logistisches Regressionsmodell mit der Spalte
wealth_levels
, umdonated
vorherzusagen und zeige das Ergebnis mitsummary()
an.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)
# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)
# See how our factor coding impacts the model
summary(___)