Grotere fouten, zwaardere straf

Alle fouten zijn verkeerd, maar niet alle fouten zijn even erg. Soms zijn grote voorspellingsfouten onevenredig schadelijker dan kleine fouten.

Grotere fouten, zwaardere straf — dat is een van de kenmerken van de root mean squared error (RMSE). Grote fouten worden gekwadrateerd, waardoor deze uitschieters zwaarder worden bestraft dan kleinere fouten.

Je kunt de RMSE als volgt berekenen, waarbij de \(i\)-de squared_diff het kwadraat is van de \(i\)-de fout.

$$RMSE = \sqrt{\frac{1}{n} \cdot \sum_{i=1} ^n i\text{th squared_diff}}$$

In deze oefening bereken je de RMSE van je voorspellingen.

In je werkruimte staat het resultaat van de vorige oefening, test_enriched: de testdata met een nieuwe kolom .pred, de out-of-sample voorspellingen van het model.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Oefeninstructies

Bereken de componentgewijze verschillen tussen de voorspellingen en de eindcijfers, kwadrateer ze, en sla ze op als squared_diffs.
Gebruik de formule hierboven om de RMSE te berekenen en sla deze op als rmse_manual.
Gebruik de functie rmse() om de fout te berekenen en sla deze op als rmse_auto.
Print rmse_manual en rmse_auto om te controleren dat ze gelijk zijn.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Calculate the squared differences
squared_diffs <- (___ - ___)^___

# Compute the RMSE using the formula
rmse_manual <- ___(1 / ___ * ___)

# Compute the RMSE using a function
rmse_auto <- ___(___,
                 ___,
                 ___)

# Print both errors
___
___

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

SkillTag.level.beginnerSkillTag.label

4.9+

Begin gratis met de cursus

Klaar om een echte Machine Learning-pijplijn te bouwen? Voltooi stapsgewijze oefeningen om beslissingsbomen te maken, je data te splitsen en te voorspellen welke patiënten het grootste risico op diabetes lopen. Tot slot bouw je prestatiematen om je modellen te beoordelen en je voorspellingen te evalueren.

Exercise 1: Welkom bij de cursus!Exercise 2: Waarom methoden op basis van bomen?Exercise 3: Specificeer die tree Exercise 4: Train dat model Exercise 5: Zo laat je je boom groeien Exercise 6: Train/test-split Exercise 7: Class-imbalance voorkomen Exercise 8: Van nul tot held Exercise 9: Voorspellen en evalueren Exercise 10: Voorspellingen maken Exercise 11: Kraak de matrix Exercise 12: Voorspel je het goed?

Zin in wat lekkers? Gebruik een dataset met chocoladewaarderingen om regressiebomen te bouwen en hun prestaties te beoordelen met passende foutmaten. Je overwint de statistische onzekerheid van enkele train/test-splitsingen met zoete technieken zoals cross-validatie en gaat nog dieper door de bias-variance trade-off te beheersen.

Exercise 1: Continue uitkomsten Exercise 2: Train een regressieboom Exercise 3: Nieuwe waarden voorspellen Exercise 4: Inspecteer de modeloutput Exercise 5: Prestatiemetrieken voor regressiebomen Exercise 6: Prestatie binnen de trainingsset Exercise 7: Out-of-sample-prestatie Exercise 8: Grotere fouten, zwaardere straf

Huidige oefening

Exercise 9: Cross-validatie Exercise 10: Maak de folds Exercise 11: De folds fitten Exercise 12: Evalueer de folds Exercise 13: Afweging tussen bias en variantie Exercise 14: Noem dingen bij hun naam Exercise 15: Modelcomplexiteit aanpassen Exercise 16: Prestaties in-sample en out-of-sample

Tijd om serieus aan de slag te gaan met het afstellen van je hyperparameters en het interpreteren van receiver operating characteristic (ROC)-curves. In dit hoofdstuk benut je de wijsheid van de massa met ensemblemodellen zoals bagging of random forests en bouw je ensembles die voorspellen welke creditcardklanten het meest waarschijnlijk zullen afhaken.

Exercise 1: Hyperparameters afstemmen Exercise 2: Genereer een tuningraster Exercise 3: Afstemmen langs het raster Exercise 4: Kies de winnaar Exercise 5: Meer modelmaten Exercise 6: Specificity berekenen Exercise 7: Teken de ROC-curve Exercise 8: Oppervlakte onder de ROC-curve Exercise 9: Gebagde bomen Exercise 10: Bagged trees maken Exercise 11: In-sample ROC en AUC Exercise 12: Controleer op overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Belang van variabelen

Klaar voor de eredivisie van boomgebaseerde modellen? Pas gradient boosting toe om krachtige ensembles te maken die beter presteren dan alles wat je tot nu toe hebt gezien of gebouwd. Leer hoe je ze fijn-afstemt en verschillende modellen vergelijkt om een winnaar voor productie te kiezen.

Exercise 1: Introductie tot boosting Exercise 2: Bagging vs. boosting Exercise 3: Specificeer een boosted ensemble Exercise 4: Gradient boosting Exercise 5: Train een boosted ensemble Exercise 6: Evalueer het ensemble Exercise 7: Vergelijk met één enkele classifier Exercise 8: Het boosted ensemble optimaliseren Exercise 9: Voorbereiden op afstemmen Exercise 10: Het echte afstemmen Exercise 11: Rond het model af Exercise 12: Modelvergelijking Exercise 13: Vergelijk AUC Exercise 14: ROC-curves plotten Exercise 15: Afronding