Aan de slagGa gratis aan de slag

Categorische features coderen

Soms bevat een gegevensset numerieke waarden die een categorische feature voorstellen.

In de donors-gegevensset gebruikt wealth_rating cijfers om het welvaartsniveau van de donateur aan te geven:

  • 0 = Onbekend
  • 1 = Laag
  • 2 = Medium
  • 3 = Hoog

Deze oefening laat zien hoe je dit type categorische feature voorbereidt en bekijkt de invloed ervan op een logistic regression-model. De donors-dataframe is voor je beschikbaar.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Classificatie

Cursus bekijken

Oefeninstructies

  • Maak een factor wealth_levels van de numerieke wealth_rating met de labels zoals getoond door de functie factor() de kolom die je wilt omzetten, de afzonderlijke niveaus en de labels te geven.
  • Gebruik relevel() om de referentiecategorie te veranderen naar Medium. Het eerste argument moet je nieuwe factor-kolom zijn.
  • Bouw een logistic regression-model met de kolom wealth_levels om donated te voorspellen en toon het resultaat met summary().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)

# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)

# See how our factor coding impacts the model
summary(___)
Code bewerken en uitvoeren