Votre première pipeline
Votre collègue a utilisé AdaBoostClassifier pour le jeu de données de scoring de crédit. Vous souhaitez également essayer un classificateur Random Forest. Dans cet exercice, vous allez ajuster ce classificateur aux données et le comparer à AdaBoostClassifier. Veillez à effectuer une séparation train/test pour éviter le surapprentissage. Les données sont préchargées et transformées de sorte que toutes les variables explicatives soient numériques. Les caractéristiques sont disponibles sous forme de X et les étiquettes sous forme de y. Le module RandomForestClassifier a également été préchargé.
Cet exercice fait partie du cours
<cours>Concevoir des workflows de Machine Learning en Python</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Split the data into train and test, with 20% as test
X_train, ____, ____, y_test = train_test_split(
X, y, ____=0.2, random_state=1)