In-sample ROC en AUC

Hoe goed leggen bagged trees de structuur van je trainingsset vast? Doen ze het beter dan decision trees? Overfitten ze? ROC en AUC zijn een geweldige manier om dat te beoordelen.

In deze oefening ga je in-sample voorspellingen genereren en de ROC en AUC berekenen. Let op, er zitten verrassingen bij!

Vooraf ingeladen zijn het resultaat van de vorige oefening, model_bagged, en de trainingsdata, customers_train.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Oefeninstructies

Gebruik model_bagged om kansvoorspellingen te genereren met je trainingsset en voeg die toe aan de trainings-tibble; sla het resultaat op als predictions.
Genereer de ROC-curve van de predictions-tibble en plot het resultaat.
Bereken de AUC van de predictions-tibble.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Predict on training set and add to training set
predictions <- ___(___,
                   new_data = ___, 
                   type = "___") %>% 
    bind_cols(___)

# Create and plot the ROC curve
roc_curve(___,
          estimate = ___,
          truth = ___) %>% autoplot()

# Calculate the AUC
___(predictions,
    estimate = ___, 
    truth = ___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

SkillTag.level.beginnerSkillTag.label

4.9+

Begin gratis met de cursus

Klaar om een echte Machine Learning-pijplijn te bouwen? Voltooi stapsgewijze oefeningen om beslissingsbomen te maken, je data te splitsen en te voorspellen welke patiënten het grootste risico op diabetes lopen. Tot slot bouw je prestatiematen om je modellen te beoordelen en je voorspellingen te evalueren.

Exercise 1: Welkom bij de cursus!Exercise 2: Waarom methoden op basis van bomen?Exercise 3: Specificeer die tree Exercise 4: Train dat model Exercise 5: Zo laat je je boom groeien Exercise 6: Train/test-split Exercise 7: Class-imbalance voorkomen Exercise 8: Van nul tot held Exercise 9: Voorspellen en evalueren Exercise 10: Voorspellingen maken Exercise 11: Kraak de matrix Exercise 12: Voorspel je het goed?

Zin in wat lekkers? Gebruik een dataset met chocoladewaarderingen om regressiebomen te bouwen en hun prestaties te beoordelen met passende foutmaten. Je overwint de statistische onzekerheid van enkele train/test-splitsingen met zoete technieken zoals cross-validatie en gaat nog dieper door de bias-variance trade-off te beheersen.

Exercise 1: Continue uitkomsten Exercise 2: Train een regressieboom Exercise 3: Nieuwe waarden voorspellen Exercise 4: Inspecteer de modeloutput Exercise 5: Prestatiemetrieken voor regressiebomen Exercise 6: Prestatie binnen de trainingsset Exercise 7: Out-of-sample-prestatie Exercise 8: Grotere fouten, zwaardere straf Exercise 9: Cross-validatie Exercise 10: Maak de folds Exercise 11: De folds fitten Exercise 12: Evalueer de folds Exercise 13: Afweging tussen bias en variantie Exercise 14: Noem dingen bij hun naam Exercise 15: Modelcomplexiteit aanpassen Exercise 16: Prestaties in-sample en out-of-sample

Tijd om serieus aan de slag te gaan met het afstellen van je hyperparameters en het interpreteren van receiver operating characteristic (ROC)-curves. In dit hoofdstuk benut je de wijsheid van de massa met ensemblemodellen zoals bagging of random forests en bouw je ensembles die voorspellen welke creditcardklanten het meest waarschijnlijk zullen afhaken.

Exercise 1: Hyperparameters afstemmen Exercise 2: Genereer een tuningraster Exercise 3: Afstemmen langs het raster Exercise 4: Kies de winnaar Exercise 5: Meer modelmaten Exercise 6: Specificity berekenen Exercise 7: Teken de ROC-curve Exercise 8: Oppervlakte onder de ROC-curve Exercise 9: Gebagde bomen Exercise 10: Bagged trees maken Exercise 11: In-sample ROC en AUC

Huidige oefening

Exercise 12: Controleer op overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Belang van variabelen

Klaar voor de eredivisie van boomgebaseerde modellen? Pas gradient boosting toe om krachtige ensembles te maken die beter presteren dan alles wat je tot nu toe hebt gezien of gebouwd. Leer hoe je ze fijn-afstemt en verschillende modellen vergelijkt om een winnaar voor productie te kiezen.

Exercise 1: Introductie tot boosting Exercise 2: Bagging vs. boosting Exercise 3: Specificeer een boosted ensemble Exercise 4: Gradient boosting Exercise 5: Train een boosted ensemble Exercise 6: Evalueer het ensemble Exercise 7: Vergelijk met één enkele classifier Exercise 8: Het boosted ensemble optimaliseren Exercise 9: Voorbereiden op afstemmen Exercise 10: Het echte afstemmen Exercise 11: Rond het model af Exercise 12: Modelvergelijking Exercise 13: Vergelijk AUC Exercise 14: ROC-curves plotten Exercise 15: Afronding