Une forêt d’arbres de décision
Dans cet exercice, vous allez vous entraîner à utiliser l’Arbre de décision avec bootstrap, plus connu sous le nom de Random Forest. Comme dans l’exercice précédent, vous comparerez ensuite sa précision à celle d’un modèle dont vous aurez ajusté les hyperparamètres par validation croisée.
Cette fois, vous réglerez un hyperparamètre supplémentaire, max_features, qui permet au modèle de décider combien de variables utiliser. S’il n’est pas spécifié, sa valeur par défaut est auto. À garder en tête pour un entretien : les Arbres de décision prennent en compte toutes les variables par défaut, tandis que les Random Forests considèrent généralement la racine carrée du nombre de variables.
La matrice de variables X, la cible y et train_test_split depuis sklearn.model_selection ont été importées pour vous.
Cet exercice fait partie du cours
S’entraîner aux questions d’entretien en Machine Learning avec Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import modules
from sklearn.ensemble import ____
from sklearn.metrics import accuracy_score
# Train/test split
X_train, X_test, y_train, y_test = train_test_split(____, ____, test_size=0.30, random_state=123)
# Instantiate, Fit, Predict
loans_rf = ____()
loans_rf.____(____, ____)
y_pred = loans_rf.____(____)
# Evaluation metric
print("Random Forest Accuracy: {}".format(____(____,____)))