Aan de slagGa gratis aan de slag

Casestudy nierziekte III: volledige pipeline

Tijd om alle transformaties samen met een XGBClassifier te combineren tot de volledige pipeline!

Naast de numeric_categorical_union die je in de vorige oefening hebt gemaakt, zijn er nog twee transformaties nodig: de Dictifier()-transformatie die we voor je hebben gemaakt, en de DictVectorizer().

Nadat je de pipeline hebt gemaakt, is je taak om kruisvalidatie uit te voeren om te zien hoe goed deze presteert.

Deze oefening maakt deel uit van de cursus

Extreme Gradient Boosting met XGBoost

Cursus bekijken

Oefeninstructies

  • Maak de pipeline met de transformaties numeric_categorical_union, Dictifier() en DictVectorizer(sort=False), en de schatter xgb.XGBClassifier() met max_depth=3. Noem de transformaties "featureunion", "dictifier", "vectorizer" en de schatter "clf".
  • Voer 3-fold kruisvalidatie uit op de pipeline met cross_val_score(). Geef de pipeline, pipeline, de features, kidney_data, en de uitkomsten, y, door. Stel ook scoring in op "roc_auc" en cv op 3.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create full pipeline
pipeline = ____([
                     ("____", ____),
                     ("____", ____),
                     ("____", ____),
                     ("____", ____)
                    ])

# Perform cross-validation
cross_val_scores = ____(____, ____, ____, ____="____", ____=____)

# Print avg. AUC
print("3-fold AUC: ", np.mean(cross_val_scores))
Code bewerken en uitvoeren