Kategorische Merkmale kodieren
Manchmal enthält ein Datensatz numerische Werte, die ein kategorisches Merkmal darstellen.
Im Datensatz donors verwendet wealth_rating Zahlen, um das Vermögensniveau der spendenden Person anzugeben:
- 0 = Unbekannt
- 1 = Niedrig
- 2 = Mittel
- 3 = Hoch
Diese Übung zeigt, wie du diese Art von kategorischem Merkmal aufbereitest, und untersucht dessen Einfluss auf ein logistisches Regressionsmodell. Der Data Frame donors steht dir zur Verfügung.
Diese Übung ist Teil des Kurses
Überwachtes Lernen in R: Klassifikation
Anleitung zur Übung
- Erzeuge einen Faktor
wealth_levelsaus dem numerischenwealth_ratingmit den gezeigten Labels, indem du der Funktionfactor()die umzuwandelnde Spalte, die einzelnen Stufen und die Labels übergibst. - Verwende
relevel(), um die Referenzkategorie aufMediumzu setzen. Das erste Argument sollte deine neuefactor-Spalte sein. - Baue ein logistisches Regressionsmodell, das mithilfe der Spalte
wealth_levelsdonatedvorhersagt, und gib das Ergebnis mitsummary()aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)
# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)
# See how our factor coding impacts the model
summary(___)