Klaar om een echte Machine Learning-pijplijn te bouwen? Voltooi stapsgewijze oefeningen om beslissingsbomen te maken, je data te splitsen en te voorspellen welke patiënten het grootste risico op diabetes lopen. Tot slot bouw je prestatiematen om je modellen te beoordelen en je voorspellingen te evalueren.

Welkom bij de cursus!

Waarom methoden op basis van bomen?

Specificeer die tree

Train dat model

Zo laat je je boom groeien

Train/test-split

Class-imbalance voorkomen

Van nul tot held

Voorspellen en evalueren

Voorspellingen maken

Kraak de matrix

Voorspel je het goed?

Classificatiebomen

Zin in wat lekkers? Gebruik een dataset met chocoladewaarderingen om regressiebomen te bouwen en hun prestaties te beoordelen met passende foutmaten. Je overwint de statistische onzekerheid van enkele train/test-splitsingen met zoete technieken zoals cross-validatie en gaat nog dieper door de bias-variance trade-off te beheersen.

Continue uitkomsten

Train een regressieboom

Nieuwe waarden voorspellen

Inspecteer de modeloutput

Prestatiemetrieken voor regressiebomen

Prestatie binnen de trainingsset

Out-of-sample-prestatie

Grotere fouten, zwaardere straf

Cross-validatie

Maak de folds

De folds fitten

Evalueer de folds

Afweging tussen bias en variantie

Noem dingen bij hun naam

Modelcomplexiteit aanpassen

Prestaties in-sample en out-of-sample

Regressiebomen en cross-validatie

Tijd om serieus aan de slag te gaan met het afstellen van je hyperparameters en het interpreteren van receiver operating characteristic (ROC)-curves. In dit hoofdstuk benut je de wijsheid van de massa met ensemblemodellen zoals bagging of random forests en bouw je ensembles die voorspellen welke creditcardklanten het meest waarschijnlijk zullen afhaken.

Hyperparameters afstemmen

Genereer een tuningraster

Afstemmen langs het raster

Kies de winnaar

Meer modelmaten

Specificity berekenen

Teken de ROC-curve

Oppervlakte onder de ROC-curve

Gebagde bomen

Bagged trees maken

In-sample ROC en AUC

Controleer op overfitting

Random forest

Bagged trees vs. random forest

Belang van variabelen

Hyperparameters en ensemblemodellen

Klaar voor de eredivisie van boomgebaseerde modellen? Pas gradient boosting toe om krachtige ensembles te maken die beter presteren dan alles wat je tot nu toe hebt gezien of gebouwd. Leer hoe je ze fijn-afstemt en verschillende modellen vergelijkt om een winnaar voor productie te kiezen.

Introductie tot boosting

Bagging vs. boosting

Specificeer een boosted ensemble

Gradient boosting

Train een boosted ensemble

Evalueer het ensemble

Vergelijk met één enkele classifier

Het boosted ensemble optimaliseren

Voorbereiden op afstemmen

Het echte afstemmen

Rond het model af

Modelvergelijking

Vergelijk AUC

ROC-curves plotten

Afronding

Boosted trees

Chocolate ratings

Diabetes risk

Bank customer churn

Boomgebaseerde Machine Learning-modellen kunnen complexe niet-lineaire relaties in data zichtbaar maken en domineren vaak Machine Learning-wedstrijden. In deze cursus gebruik je het tidymodels-pakket om verschillende boomgebaseerde modellen te verkennen en te bouwen—van eenvoudige beslissingsbomen tot complexe random forests. Je leert ook boosted trees gebruiken, een krachtige Machine Learning-techniek die ensemble learning inzet om sterk presterende voorspellende modellen te bouwen. Onderweg werk je met gezondheids- en kredietrisicodata om het optreden van diabetes en klantverloop te voorspellen.

Modeling with tidymodels in R

Leer hoe je boommodellen en ensembles gebruikt voor classificatie en regressie met tidymodels.

Machine Learning met boomgebaseerde modellen in R

Leer hoe je boomgebaseerde modellen en ensembles kunt gebruiken om classificatie- en regressievoorspellingen te doen met tidymodels.

Afronding

Create Your Free Account