Categorische features coderen
Soms bevat een gegevensset numerieke waarden die een categorische feature voorstellen.
In de donors-gegevensset gebruikt wealth_rating cijfers om het welvaartsniveau van de donateur aan te geven:
- 0 = Onbekend
- 1 = Laag
- 2 = Medium
- 3 = Hoog
Deze oefening laat zien hoe je dit type categorische feature voorbereidt en bekijkt de invloed ervan op een logistic regression-model. De donors-dataframe is voor je beschikbaar.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Classificatie
Oefeninstructies
- Maak een factor
wealth_levelsvan de numeriekewealth_ratingmet de labels zoals getoond door de functiefactor()de kolom die je wilt omzetten, de afzonderlijke niveaus en de labels te geven. - Gebruik
relevel()om de referentiecategorie te veranderen naarMedium. Het eerste argument moet je nieuwefactor-kolom zijn. - Bouw een logistic regression-model met de kolom
wealth_levelsomdonatedte voorspellen en toon het resultaat metsummary().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)
# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)
# See how our factor coding impacts the model
summary(___)