Casestudy nierziekte III: volledige pipeline

Tijd om alle transformaties samen met een XGBClassifier te combineren tot de volledige pipeline!

Naast de numeric_categorical_union die je in de vorige oefening hebt gemaakt, zijn er nog twee transformaties nodig: de Dictifier()-transformatie die we voor je hebben gemaakt, en de DictVectorizer().

Nadat je de pipeline hebt gemaakt, is je taak om kruisvalidatie uit te voeren om te zien hoe goed deze presteert.

Deze oefening maakt deel uit van de cursus

Extreme Gradient Boosting met XGBoost

Bekijk cursus

Oefeninstructies

Maak de pipeline met de transformaties numeric_categorical_union, Dictifier() en DictVectorizer(sort=False), en de schatter xgb.XGBClassifier() met max_depth=3. Noem de transformaties "featureunion", "dictifier", "vectorizer" en de schatter "clf".
Voer 3-fold kruisvalidatie uit op de pipeline met cross_val_score(). Geef de pipeline, pipeline, de features, kidney_data, en de uitkomsten, y, door. Stel ook scoring in op "roc_auc" en cv op 3.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create full pipeline
pipeline = ____([
                     ("____", ____),
                     ("____", ____),
                     ("____", ____),
                     ("____", ____)
                    ])

# Perform cross-validation
cross_val_scores = ____(____, ____, ____, ____="____", ____=____)

# Print avg. AUC
print("3-fold AUC: ", np.mean(cross_val_scores))

Code bewerken en uitvoeren