Construire un modèle de random forest

Vous allez de nouveau travailler sur le jeu de données des Pima Indians pour prédire si une personne est atteinte de diabète, cette fois avec un classifieur de random forest. Vous ajusterez le modèle sur les données d’entraînement après avoir réalisé la séparation entraînement‑test, puis vous consulterez les valeurs d’importance des variables.

Les jeux de données de caractéristiques et de cible ont été préchargés sous les noms X et y. Il en va de même pour les packages et fonctions nécessaires.

Cet exercice fait partie du cours

<cours>Réduction de dimension en Python</cours>

Voir le cours

Instructions de l’exercice

Définissez une taille de test de 25 % pour effectuer une séparation entraînement‑test de 75 %‑25 %.
Ajustez le classifieur de random forest sur les données d’entraînement.
Calculez la précision sur le jeu de test.
Affichez l’importance de chaque variable.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)

# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)

# Calculate the accuracy
acc = accuracy_score(____, ____)

# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))

# Print accuracy
print(f"{acc:.1%} accuracy on test set.")

Modifier et exécuter le code