Sélection de variables
Lors de la préparation de vos données pour l’entraînement, il est essentiel de vous assurer que vous disposez d’un ensemble de variables pertinentes sur lesquelles le modèle pourra fonder ses prédictions (ou son diagnostic). Pour être utiles, les variables doivent capturer les caractéristiques essentielles du jeu de données sur les maladies cardiaques de manière orthogonale ; plus de données n’est pas toujours mieux !
Vous pouvez utiliser le module sklearn.feature_selection.SelectFromModel pour sélectionner des variables utiles. SelectFromModel implémente une méthode par force brute qui s’appuie sur un modèle RandomForestClassifier pour identifier les variables les plus saillantes pour la tâche de diagnostic des maladies cardiaques.
RandomForestClassifier a été importé, et les caractéristiques et la cible du jeu de données sur les maladies cardiaques ont été importées sous les noms X_train et y_train, respectivement.
Cet exercice fait partie du cours
Machine Learning de bout en bout
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.feature_selection import SelectFromModel
# Define the random forest model and fit to the training data
rf = ____(____=____, ____=____, ____=____)
rf.____(____, ____)