Aan de slagGa gratis aan de slag

Meerdere verklarende variabelen visualiseren

Logistische regressie ondersteunt ook meerdere verklarende variabelen. Plotten kent vergelijkbare uitdagingen als bij lineaire regressie: het wordt al snel lastig om meer numerieke variabelen in één plot op te nemen. We bekijken hier de situatie met twee numerieke verklarende variabelen. De oplossing is in essentie dezelfde als eerder: gebruik kleur om de respons aan te duiden.

Hier zijn er maar twee mogelijke responswaarden (nul en één), en later, wanneer we voorspelde responsen toevoegen, liggen de waarden allemaal tussen nul en één. Zodra je voorspellingen opneemt, is het belangrijkste om uit de plot te halen of de voorspellingen dicht bij nul of juist dicht bij één liggen. Daarom is een 2-kleurenverloop met een splitsing op 0,5 heel nuttig: responsen boven 0,5 krijgen één kleur en responsen onder 0,5 een andere kleur.

De bank-churngegevensset is beschikbaar als churn; ggplot2 is geladen.

Deze oefening maakt deel uit van de cursus

Intermediary Regression in R

Cursus bekijken

Oefeninstructies

  • Gebruik de churn-gegevensset en plot de aankooprecency, time_since_last_purchase, tegen de duur van de klantrelatie, time_since_first_purchase, met kleur op basis van wel of niet opgezegd, has_churned.
  • Voeg een puntenlaag toe met de transparantie op 0.5.
  • Gebruik een 2-kleurenverloop met midpoint op 0.5.
  • Gebruik het zwart-wit-thema.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Using churn, plot recency vs. length of relationship colored by churn status
___ +
  # Make it a scatter plot, with transparency 0.5
  ___ +
  # Use a 2-color gradient split at 0.5
  ___ +
  # Use the black and white theme
  ___
Code bewerken en uitvoeren