Votre première pipeline
Votre collègue a utilisé AdaBoostClassifier pour le jeu de données de scoring de crédit. Vous souhaitez également essayer un classificateur Random Forest. Dans cet exercice, vous allez ajuster ce classificateur aux données et le comparer à AdaBoostClassifier. Veillez à effectuer une séparation train/test pour éviter le surapprentissage. Les données sont préchargées et transformées de sorte que toutes les variables explicatives soient numériques. Les caractéristiques sont disponibles sous forme de X et les étiquettes sous forme de y. Le module RandomForestClassifier a également été préchargé.
Cet exercice fait partie du cours
Concevoir des workflows de Machine Learning en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the data into train and test, with 20% as test
X_train, ____, ____, y_test = train_test_split(
X, y, ____=0.2, random_state=1)