Prestatie binnen de trainingsset

Het is heel belangrijk om te weten of je regressiemodel nuttig is. Een nuttig model kan er een zijn dat de structuur van je trainingsset goed vastlegt. Een manier om deze prestatie binnen de trainingsset te beoordelen, is voorspellen op trainingsdata en de mean absolute error van alle voorspelde datapunten te berekenen.

In deze oefening beoordeel je je in-sample-voorspellingen met MAE (mean absolute error). MAE vertelt je ongeveer hoe ver de voorspellingen van de echte waarden afliggen.

Die wordt berekend met de volgende formule, waarbij \(n\) het aantal gedane voorspellingen is:

$$MAE = \frac{1}{n} \cdot \sum_{i=1}^n \text{absolute waarde van de }i\text{e fout}$$

In je werkruimte staat je model, de regressieboom die je in de vorige oefeningen hebt gebouwd.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Oefeninstructies

Maak in_sample_predictions door model te gebruiken om te voorspellen op de tibble chocolate_train.
Bereken een vector abs_diffs met de absolute verschillen tussen de in-sample-voorspellingen en de echte beoordelingen.
Bereken de mean absolute error volgens de bovenstaande formule.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Predict using the training set
in_sample_predictions <- predict(model,
                                 ___)

# Calculate the vector of absolute differences
abs_diffs <- ___(__$___ - ___$___)

# Calculate the mean absolute error
1 / ___ * ___

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

SkillTag.level.beginnerSkillTag.label

4.9+

Begin gratis met de cursus

Klaar om een echte Machine Learning-pijplijn te bouwen? Voltooi stapsgewijze oefeningen om beslissingsbomen te maken, je data te splitsen en te voorspellen welke patiënten het grootste risico op diabetes lopen. Tot slot bouw je prestatiematen om je modellen te beoordelen en je voorspellingen te evalueren.

Exercise 1: Welkom bij de cursus!Exercise 2: Waarom methoden op basis van bomen?Exercise 3: Specificeer die tree Exercise 4: Train dat model Exercise 5: Zo laat je je boom groeien Exercise 6: Train/test-split Exercise 7: Class-imbalance voorkomen Exercise 8: Van nul tot held Exercise 9: Voorspellen en evalueren Exercise 10: Voorspellingen maken Exercise 11: Kraak de matrix Exercise 12: Voorspel je het goed?

Zin in wat lekkers? Gebruik een dataset met chocoladewaarderingen om regressiebomen te bouwen en hun prestaties te beoordelen met passende foutmaten. Je overwint de statistische onzekerheid van enkele train/test-splitsingen met zoete technieken zoals cross-validatie en gaat nog dieper door de bias-variance trade-off te beheersen.

Exercise 1: Continue uitkomsten Exercise 2: Train een regressieboom Exercise 3: Nieuwe waarden voorspellen Exercise 4: Inspecteer de modeloutput Exercise 5: Prestatiemetrieken voor regressiebomen Exercise 6: Prestatie binnen de trainingsset

Huidige oefening

Exercise 7: Out-of-sample-prestatie Exercise 8: Grotere fouten, zwaardere straf Exercise 9: Cross-validatie Exercise 10: Maak de folds Exercise 11: De folds fitten Exercise 12: Evalueer de folds Exercise 13: Afweging tussen bias en variantie Exercise 14: Noem dingen bij hun naam Exercise 15: Modelcomplexiteit aanpassen Exercise 16: Prestaties in-sample en out-of-sample

Tijd om serieus aan de slag te gaan met het afstellen van je hyperparameters en het interpreteren van receiver operating characteristic (ROC)-curves. In dit hoofdstuk benut je de wijsheid van de massa met ensemblemodellen zoals bagging of random forests en bouw je ensembles die voorspellen welke creditcardklanten het meest waarschijnlijk zullen afhaken.

Exercise 1: Hyperparameters afstemmen Exercise 2: Genereer een tuningraster Exercise 3: Afstemmen langs het raster Exercise 4: Kies de winnaar Exercise 5: Meer modelmaten Exercise 6: Specificity berekenen Exercise 7: Teken de ROC-curve Exercise 8: Oppervlakte onder de ROC-curve Exercise 9: Gebagde bomen Exercise 10: Bagged trees maken Exercise 11: In-sample ROC en AUC Exercise 12: Controleer op overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Belang van variabelen

Klaar voor de eredivisie van boomgebaseerde modellen? Pas gradient boosting toe om krachtige ensembles te maken die beter presteren dan alles wat je tot nu toe hebt gezien of gebouwd. Leer hoe je ze fijn-afstemt en verschillende modellen vergelijkt om een winnaar voor productie te kiezen.

Exercise 1: Introductie tot boosting Exercise 2: Bagging vs. boosting Exercise 3: Specificeer een boosted ensemble Exercise 4: Gradient boosting Exercise 5: Train een boosted ensemble Exercise 6: Evalueer het ensemble Exercise 7: Vergelijk met één enkele classifier Exercise 8: Het boosted ensemble optimaliseren Exercise 9: Voorbereiden op afstemmen Exercise 10: Het echte afstemmen Exercise 11: Rond het model af Exercise 12: Modelvergelijking Exercise 13: Vergelijk AUC Exercise 14: ROC-curves plotten Exercise 15: Afronding