CommencerCommencer gratuitement

Visualiser plusieurs variables explicatives

La régression logistique accepte aussi plusieurs variables explicatives. La visualisation pose des défis similaires à la régression linéaire : il devient vite difficile d’ajouter davantage de variables numériques au graphique. Ici, nous considérons le cas de deux variables explicatives numériques, et la solution est essentiellement la même qu’auparavant : utiliser la couleur pour représenter la variable réponse.

Ici, la réponse ne peut prendre que deux valeurs (zéro et un) et, plus tard, lorsque nous ajouterons les réponses prédites, leurs valeurs seront toutes comprises entre zéro et un. Une fois les réponses prédites incluses, l’information clé à lire sur le graphique est de savoir si les prédictions sont proches de zéro ou proches de un. Autrement dit, un dégradé à 2 couleurs scindé à 0,5 est très utile : les réponses au-dessus de 0,5 sont d’une couleur et celles en dessous de 0,5 d’une autre couleur.

Le jeu de données d’attrition bancaire est disponible sous churn ; ggplot2 est chargé.

Cet exercice fait partie du cours

Régression intermédiaire en R

Afficher le cours

Instructions

  • À partir du jeu de données churn, tracez la récence d’achat, time_since_last_purchase, en fonction de la durée de la relation client, time_since_first_purchase, et colorez selon le fait que le client a résilié ou non, has_churned.
  • Ajoutez une couche de points, avec une transparence fixée à 0.5.
  • Utilisez un dégradé à 2 couleurs, avec un point milieu à 0.5.
  • Utilisez le thème noir et blanc.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Using churn, plot recency vs. length of relationship colored by churn status
___ +
  # Make it a scatter plot, with transparency 0.5
  ___ +
  # Use a 2-color gradient split at 0.5
  ___ +
  # Use the black and white theme
  ___
Modifier et exécuter le code