CommencerCommencer gratuitement

Étude de cas sur les maladies rénales III : pipeline complet

Il est temps d’assembler toutes les transformations avec un XGBClassifier pour construire le pipeline complet !

En plus du numeric_categorical_union que vous avez créé dans l’exercice précédent, deux autres transformations sont nécessaires : la transformation Dictifier() que nous avons préparée pour vous, et le DictVectorizer().

Après avoir créé le pipeline, votre tâche est de réaliser une validation croisée pour évaluer ses performances.

Cet exercice fait partie du cours

Extreme Gradient Boosting avec XGBoost

Afficher le cours

Instructions

  • Créez le pipeline en utilisant les transformations numeric_categorical_union, Dictifier() et DictVectorizer(sort=False), ainsi que l’estimateur xgb.XGBClassifier() avec max_depth=3. Nommez les transformations "featureunion", "dictifier", "vectorizer", et l’estimateur "clf".
  • Effectuez une validation croisée en 3 plis sur le pipeline avec cross_val_score(). Passez-lui le pipeline, pipeline, les caractéristiques, kidney_data, et les étiquettes, y. Définissez également scoring à "roc_auc" et cv à 3.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create full pipeline
pipeline = ____([
                     ("____", ____),
                     ("____", ____),
                     ("____", ____),
                     ("____", ____)
                    ])

# Perform cross-validation
cross_val_scores = ____(____, ____, ____, ____="____", ____=____)

# Print avg. AUC
print("3-fold AUC: ", np.mean(cross_val_scores))
Modifier et exécuter le code