Kodierung kategorischer Merkmale
Manchmal enthält ein Datensatz numerische Werte, die ein kategoriales Merkmal darstellen.
Im donors Datensatz verwendet wealth_rating Zahlen, um das Wohlstandsniveau des Spenders anzugeben:
- 0 = Unbekannt
- 1 = Niedrig
- 2 = Mittel
- 3 = Hoch
Diese Übung veranschaulicht, wie man diese Art von kategorialen Merkmalen vorbereitet und untersucht ihre Auswirkungen auf ein logistisches Regressionsmodell. Der donors Datenrahmen steht dir zur Verfügung.
Diese Übung ist Teil des Kurses
Überwachtes Lernen in R: Klassifikation
Anleitung zur Übung
- Erstelle einen Faktor
wealth_levelsaus der numerischenwealth_ratingmit Beschriftungen wie gezeigt, indem du der Funktionfactor()die Spalte, die du umwandeln möchtest, die einzelnen Ebenen und die Beschriftungen übergibst. - Verwende
relevel(), um die Referenzkategorie inMediumzu ändern. Das erste Argument sollte deine neue Spaltefactorsein. - Erstelle ein logistisches Regressionsmodell mit der Spalte
wealth_levels, umdonatedvorherzusagen und zeige das Ergebnis mitsummary()an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)
# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)
# See how our factor coding impacts the model
summary(___)