Choisir le meilleur modèle

Dans cet exercice, vous allez comparer différents classifieurs et choisir celui qui offre les meilleures performances.

Le jeu de données ici — déjà chargé et séparé en ensembles d’entraînement et de test — contient des Pokémon avec leurs statistiques, leurs types, et l’information indiquant s’ils sont légendaires ou non. L’objectif de nos classifieurs est de prédire la variable 'Legendary'.

Trois classifieurs ont été ajustés sur l’ensemble d’entraînement :

clf_lr est une régression logistique.
clf_dt est un arbre de décision.
clf_knn est un classifieur des 5 plus proches voisins.

Comme les classes sont déséquilibrées — seulement 65 des 800 Pokémon du jeu de données sont légendaires — nous utiliserons le F1-score pour évaluer les performances. La fonction f1_score() de scikit-learn a été importée pour vous.

Cet exercice fait partie du cours

<cours>Méthodes d’ensemble en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Predict the labels of the test set
pred_lr = ____
pred_dt = ____
pred_knn = ____

Modifier et exécuter le code