Étude de cas sur les maladies rénales III : pipeline complet
Il est temps d’assembler toutes les transformations avec un XGBClassifier pour construire le pipeline complet !
En plus du numeric_categorical_union que vous avez créé dans l’exercice précédent, deux autres transformations sont nécessaires : la transformation Dictifier() que nous avons préparée pour vous, et le DictVectorizer().
Après avoir créé le pipeline, votre tâche est de réaliser une validation croisée pour évaluer ses performances.
Cet exercice fait partie du cours
Extreme Gradient Boosting avec XGBoost
Instructions
- Créez le pipeline en utilisant les transformations
numeric_categorical_union,Dictifier()etDictVectorizer(sort=False), ainsi que l’estimateurxgb.XGBClassifier()avecmax_depth=3. Nommez les transformations"featureunion","dictifier","vectorizer", et l’estimateur"clf". - Effectuez une validation croisée en 3 plis sur le
pipelineaveccross_val_score(). Passez-lui le pipeline,pipeline, les caractéristiques,kidney_data, et les étiquettes,y. Définissez égalementscoringà"roc_auc"etcvà3.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create full pipeline
pipeline = ____([
("____", ____),
("____", ____),
("____", ____),
("____", ____)
])
# Perform cross-validation
cross_val_scores = ____(____, ____, ____, ____="____", ____=____)
# Print avg. AUC
print("3-fold AUC: ", np.mean(cross_val_scores))