Étude de cas sur les maladies rénales III : pipeline complet

Il est temps d’assembler toutes les transformations avec un XGBClassifier pour construire le pipeline complet !

En plus du numeric_categorical_union que vous avez créé dans l’exercice précédent, deux autres transformations sont nécessaires : la transformation Dictifier() que nous avons préparée pour vous, et le DictVectorizer().

Après avoir créé le pipeline, votre tâche est de réaliser une validation croisée pour évaluer ses performances.

Cet exercice fait partie du cours

<cours>Extreme Gradient Boosting avec XGBoost</cours>

Voir le cours

Instructions de l’exercice

Créez le pipeline en utilisant les transformations numeric_categorical_union, Dictifier() et DictVectorizer(sort=False), ainsi que l’estimateur xgb.XGBClassifier() avec max_depth=3. Nommez les transformations "featureunion", "dictifier", "vectorizer", et l’estimateur "clf".
Effectuez une validation croisée en 3 plis sur le pipeline avec cross_val_score(). Passez-lui le pipeline, pipeline, les caractéristiques, kidney_data, et les étiquettes, y. Définissez également scoring à "roc_auc" et cv à 3.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create full pipeline
pipeline = ____([
                     ("____", ____),
                     ("____", ____),
                     ("____", ____),
                     ("____", ____)
                    ])

# Perform cross-validation
cross_val_scores = ____(____, ____, ____, ____="____", ____=____)

# Print avg. AUC
print("3-fold AUC: ", np.mean(cross_val_scores))

Modifier et exécuter le code