Sélection de variables

Lors de la préparation de vos données pour l’entraînement, il est essentiel de vous assurer que vous disposez d’un ensemble de variables pertinentes sur lesquelles le modèle pourra fonder ses prédictions (ou son diagnostic). Pour être utiles, les variables doivent capturer les caractéristiques essentielles du jeu de données sur les maladies cardiaques de manière orthogonale ; plus de données n’est pas toujours mieux !

Vous pouvez utiliser le module sklearn.feature_selection.SelectFromModel pour sélectionner des variables utiles. SelectFromModel implémente une méthode par force brute qui s’appuie sur un modèle RandomForestClassifier pour identifier les variables les plus saillantes pour la tâche de diagnostic des maladies cardiaques.

RandomForestClassifier a été importé, et les caractéristiques et la cible du jeu de données sur les maladies cardiaques ont été importées sous les noms X_train et y_train, respectivement.

Cet exercice fait partie du cours

<cours>Machine Learning de bout en bout</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.feature_selection import SelectFromModel

# Define the random forest model and fit to the training data
rf = ____(____=____, ____=____, ____=____)
rf.____(____, ____)

Modifier et exécuter le code