Vraisemblance et log-vraisemblance

La régression linéaire cherche à optimiser un indicateur de « somme des carrés » pour trouver le meilleur ajustement. Cet indicateur ne s’applique pas à la régression logistique. À la place, la régression logistique cherche à optimiser un indicateur appelé vraisemblance, ou un indicateur lié appelé log-vraisemblance.

Le tableau de bord affiche le statut de churn en fonction du temps écoulé depuis le dernier achat dans le jeu de données churn. La ligne bleue en pointillés correspond à la courbe de prédiction de la régression logistique (autrement dit, la « meilleure courbe d’ajustement »). La ligne noire pleine montre une courbe de prédiction calculée à partir de l’ordonnée à l’origine et du coefficient de pente que vous indiquez, sous la forme logistic.cdf(intercept + slope * time_since_last_purchase).

Modifiez l’ordonnée à l’origine et la pente, et observez comment évoluent les valeurs de vraisemblance et de log-vraisemblance.

À mesure que vous vous rapprochez de la meilleure courbe d’ajustement, quelle affirmation est vraie concernant la vraisemblance et la log-vraisemblance ?

Cet exercice fait partie du cours

<cours>Régression intermédiaire avec statsmodels en Python</cours>

Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice