Prestaties in-sample en out-of-sample

Presteert een geavanceerder model altijd beter? Zoals we in de video bespraken, is dat maar half waar.

Overfitte modellen begrijpen de structuur van hun trainingsset perfect, maar kunnen niet generaliseren naar nieuwe data. Dat is balen! Uiteindelijk is het hoofddoel van een voorspellend model toch om goed te presteren op nieuwe data? Ga het onderzoeken!

Vooraf geladen zijn het laatste model uit de vorige oefening, complex_model, en je trainings- en testdata (chocolate_train en chocolate_test).

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Predict on and combine with training data and calculate the error
predict(___, new_data = ___) %>%
	___ %>% 
	mae(___,
        ___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

SkillTag.level.beginnerSkillTag.label

4.9+

Begin gratis met de cursus

Klaar om een echte Machine Learning-pijplijn te bouwen? Voltooi stapsgewijze oefeningen om beslissingsbomen te maken, je data te splitsen en te voorspellen welke patiënten het grootste risico op diabetes lopen. Tot slot bouw je prestatiematen om je modellen te beoordelen en je voorspellingen te evalueren.

Exercise 1: Welkom bij de cursus!Exercise 2: Waarom methoden op basis van bomen?Exercise 3: Specificeer die tree Exercise 4: Train dat model Exercise 5: Zo laat je je boom groeien Exercise 6: Train/test-split Exercise 7: Class-imbalance voorkomen Exercise 8: Van nul tot held Exercise 9: Voorspellen en evalueren Exercise 10: Voorspellingen maken Exercise 11: Kraak de matrix Exercise 12: Voorspel je het goed?

Zin in wat lekkers? Gebruik een dataset met chocoladewaarderingen om regressiebomen te bouwen en hun prestaties te beoordelen met passende foutmaten. Je overwint de statistische onzekerheid van enkele train/test-splitsingen met zoete technieken zoals cross-validatie en gaat nog dieper door de bias-variance trade-off te beheersen.

Exercise 1: Continue uitkomsten Exercise 2: Train een regressieboom Exercise 3: Nieuwe waarden voorspellen Exercise 4: Inspecteer de modeloutput Exercise 5: Prestatiemetrieken voor regressiebomen Exercise 6: Prestatie binnen de trainingsset Exercise 7: Out-of-sample-prestatie Exercise 8: Grotere fouten, zwaardere straf Exercise 9: Cross-validatie Exercise 10: Maak de folds Exercise 11: De folds fitten Exercise 12: Evalueer de folds Exercise 13: Afweging tussen bias en variantie Exercise 14: Noem dingen bij hun naam Exercise 15: Modelcomplexiteit aanpassen Exercise 16: Prestaties in-sample en out-of-sample

Huidige oefening

Tijd om serieus aan de slag te gaan met het afstellen van je hyperparameters en het interpreteren van receiver operating characteristic (ROC)-curves. In dit hoofdstuk benut je de wijsheid van de massa met ensemblemodellen zoals bagging of random forests en bouw je ensembles die voorspellen welke creditcardklanten het meest waarschijnlijk zullen afhaken.

Exercise 1: Hyperparameters afstemmen Exercise 2: Genereer een tuningraster Exercise 3: Afstemmen langs het raster Exercise 4: Kies de winnaar Exercise 5: Meer modelmaten Exercise 6: Specificity berekenen Exercise 7: Teken de ROC-curve Exercise 8: Oppervlakte onder de ROC-curve Exercise 9: Gebagde bomen Exercise 10: Bagged trees maken Exercise 11: In-sample ROC en AUC Exercise 12: Controleer op overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Belang van variabelen

Klaar voor de eredivisie van boomgebaseerde modellen? Pas gradient boosting toe om krachtige ensembles te maken die beter presteren dan alles wat je tot nu toe hebt gezien of gebouwd. Leer hoe je ze fijn-afstemt en verschillende modellen vergelijkt om een winnaar voor productie te kiezen.

Exercise 1: Introductie tot boosting Exercise 2: Bagging vs. boosting Exercise 3: Specificeer een boosted ensemble Exercise 4: Gradient boosting Exercise 5: Train een boosted ensemble Exercise 6: Evalueer het ensemble Exercise 7: Vergelijk met één enkele classifier Exercise 8: Het boosted ensemble optimaliseren Exercise 9: Voorbereiden op afstemmen Exercise 10: Het echte afstemmen Exercise 11: Rond het model af Exercise 12: Modelvergelijking Exercise 13: Vergelijk AUC Exercise 14: ROC-curves plotten Exercise 15: Afronding