Meerdere verklarende variabelen visualiseren
Logistische regressie ondersteunt ook meerdere verklarende variabelen. Plotten kent vergelijkbare uitdagingen als bij lineaire regressie: het wordt al snel lastig om meer numerieke variabelen in één plot op te nemen. We bekijken hier de situatie met twee numerieke verklarende variabelen. De oplossing is in essentie dezelfde als eerder: gebruik kleur om de respons aan te duiden.
Hier zijn er maar twee mogelijke responswaarden (nul en één), en later, wanneer we voorspelde responsen toevoegen, liggen de waarden allemaal tussen nul en één. Zodra je voorspellingen opneemt, is het belangrijkste om uit de plot te halen of de voorspellingen dicht bij nul of juist dicht bij één liggen. Daarom is een 2-kleurenverloop met een splitsing op 0,5 heel nuttig: responsen boven 0,5 krijgen één kleur en responsen onder 0,5 een andere kleur.
De bank-churngegevensset is beschikbaar als churn; ggplot2 is geladen.
Deze oefening maakt deel uit van de cursus
Intermediary Regression in R
Oefeninstructies
- Gebruik de
churn-gegevensset en plot de aankooprecency,time_since_last_purchase, tegen de duur van de klantrelatie,time_since_first_purchase, met kleur op basis van wel of niet opgezegd,has_churned. - Voeg een puntenlaag toe met de transparantie op
0.5. - Gebruik een 2-kleurenverloop met
midpointop0.5. - Gebruik het zwart-wit-thema.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Using churn, plot recency vs. length of relationship colored by churn status
___ +
# Make it a scatter plot, with transparency 0.5
___ +
# Use a 2-color gradient split at 0.5
___ +
# Use the black and white theme
___