Mehrere erklärende Variablen visualisieren
Logistische Regression unterstützt auch mehrere erklärende Variablen. Beim Plotten gibt es ähnliche Herausforderungen wie bei der linearen Regression: Es wird schnell schwierig, mehr numerische Variablen in die Grafik aufzunehmen. Hier betrachten wir den Fall von zwei numerischen erklärenden Variablen, und die Lösung ist im Grunde dieselbe wie zuvor: Nutze Farbe, um die Zielvariable darzustellen.
Hier gibt es nur zwei mögliche Werte der Zielvariable (null und eins), und später, wenn wir vorhergesagte Antworten hinzufügen, liegen die Werte alle zwischen null und eins. Sobald du Vorhersagen einbeziehst, ist das Wichtigste im Plot, ob die Vorhersagen nahe bei null oder nahe bei eins liegen. Das bedeutet, dass ein zweifarbiger Verlauf mit Trennpunkt bei 0,5 wirklich hilfreich ist: Antworten über 0,5 sind eine Farbe, und Antworten unter 0,5 eine andere.
Der Bank-Churn-Datensatz ist als churn verfügbar; ggplot2 ist geladen.
Diese Übung ist Teil des Kurses
Fortgeschrittene Regression in R
Anleitung zur Übung
- Verwende den Datensatz
churn, um die Kaufaktualitättime_since_last_purchasegegen die Dauer der Kundenbeziehungtime_since_first_purchasezu plotten, eingefärbt nach dem Churn-Statushas_churned. - Füge eine Punktebene hinzu und setze die Transparenz auf
0.5. - Verwende einen zweifarbigen Verlauf mit
midpoint0.5. - Verwende das Schwarz-Weiß-Theme.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Using churn, plot recency vs. length of relationship colored by churn status
___ +
# Make it a scatter plot, with transparency 0.5
___ +
# Use a 2-color gradient split at 0.5
___ +
# Use the black and white theme
___