Qu'est-ce que la régression logistique ?
Le modèle que vous allez adapter dans ce chapitre s'appelle une régression logistique. Ce modèle est très similaire à une régression linéaire, mais au lieu de prédire une variable numérique, il prédit la probabilité (entre 0 et 1) d'un événement.
Pour utiliser cet algorithme de classification, il suffit d'attribuer un seuil à ces probabilités. Si la probabilité prédite est supérieure au seuil, vous classez cette observation comme un "oui" (dans ce cas, le retard du vol), si elle est inférieure, vous la classez comme un "non" !
Vous réglerez ce modèle en testant différentes valeurs pour plusieurs hyperparamètres. Un hyperparamètre est une valeur du modèle qui n'est pas estimée à partir des données, mais plutôt fournie par l'utilisateur pour maximiser les performances. Pour ce cours, il n'est pas nécessaire de comprendre les mathématiques qui sous-tendent toutes ces valeurs - ce qui est important, c'est que vous essayiez quelques choix différents et que vous choisissiez le meilleur.
Pourquoi fournir des hyperparamètres ?
Cet exercice fait partie du cours
Introduction à PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
