Construire un modèle de random forest
Vous allez de nouveau travailler sur le jeu de données des Pima Indians pour prédire si une personne est atteinte de diabète, cette fois avec un classifieur de random forest. Vous ajusterez le modèle sur les données d’entraînement après avoir réalisé la séparation entraînement‑test, puis vous consulterez les valeurs d’importance des variables.
Les jeux de données de caractéristiques et de cible ont été préchargés sous les noms X et y. Il en va de même pour les packages et fonctions nécessaires.
Cet exercice fait partie du cours
Réduction de dimension en Python
Instructions
- Définissez une taille de test de 25 % pour effectuer une séparation entraînement‑test de 75 %‑25 %.
- Ajustez le classifieur de random forest sur les données d’entraînement.
- Calculez la précision sur le jeu de test.
- Affichez l’importance de chaque variable.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)
# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)
# Calculate the accuracy
acc = accuracy_score(____, ____)
# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))
# Print accuracy
print(f"{acc:.1%} accuracy on test set.")