Class-imbalance voorkomen

Sommige data heeft erg scheve uitkomsten – zoals bij een gegevensset over een zeldzame ziekte. Als je willekeurig splitst, kun je pech hebben. Stel dat alle zeldzame observaties in de testset zitten en geen in de trainingsset. Dan gaat je hele trainingsproces de mist in!

Gelukkig biedt de functie initial_split() een oplossing. In deze oefening ga je deze zogeheten class-imbalances opsporen en aanpakken.

Er is al code aanwezig om een splitobject diabetes_split te maken met 75% training en 25% test.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Preparation
set.seed(9888)
diabetes_split <- initial_split(diabetes, prop = 0.75)

# Proportion of 'yes' outcomes in the training data
counts_train <- table(training(___)$outcome)
prop_yes_train <- counts_train["___"] / sum(counts_train)

# Proportion of 'yes' outcomes in the test data
counts_test <- table(___)
prop_yes_test <- ___ / sum(___)

paste("Proportion of positive outcomes in training set:", round(prop_yes_train, 2))
paste("Proportion of positive outcomes in test set:", round(prop_yes_test, 2))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

SkillTag.level.beginnerSkillTag.label

4.9+

Begin gratis met de cursus

Klaar om een echte Machine Learning-pijplijn te bouwen? Voltooi stapsgewijze oefeningen om beslissingsbomen te maken, je data te splitsen en te voorspellen welke patiënten het grootste risico op diabetes lopen. Tot slot bouw je prestatiematen om je modellen te beoordelen en je voorspellingen te evalueren.

Exercise 1: Welkom bij de cursus!Exercise 2: Waarom methoden op basis van bomen?Exercise 3: Specificeer die tree Exercise 4: Train dat model Exercise 5: Zo laat je je boom groeien Exercise 6: Train/test-split Exercise 7: Class-imbalance voorkomen

Huidige oefening

Exercise 8: Van nul tot held Exercise 9: Voorspellen en evalueren Exercise 10: Voorspellingen maken Exercise 11: Kraak de matrix Exercise 12: Voorspel je het goed?

Zin in wat lekkers? Gebruik een dataset met chocoladewaarderingen om regressiebomen te bouwen en hun prestaties te beoordelen met passende foutmaten. Je overwint de statistische onzekerheid van enkele train/test-splitsingen met zoete technieken zoals cross-validatie en gaat nog dieper door de bias-variance trade-off te beheersen.

Exercise 1: Continue uitkomsten Exercise 2: Train een regressieboom Exercise 3: Nieuwe waarden voorspellen Exercise 4: Inspecteer de modeloutput Exercise 5: Prestatiemetrieken voor regressiebomen Exercise 6: Prestatie binnen de trainingsset Exercise 7: Out-of-sample-prestatie Exercise 8: Grotere fouten, zwaardere straf Exercise 9: Cross-validatie Exercise 10: Maak de folds Exercise 11: De folds fitten Exercise 12: Evalueer de folds Exercise 13: Afweging tussen bias en variantie Exercise 14: Noem dingen bij hun naam Exercise 15: Modelcomplexiteit aanpassen Exercise 16: Prestaties in-sample en out-of-sample

Tijd om serieus aan de slag te gaan met het afstellen van je hyperparameters en het interpreteren van receiver operating characteristic (ROC)-curves. In dit hoofdstuk benut je de wijsheid van de massa met ensemblemodellen zoals bagging of random forests en bouw je ensembles die voorspellen welke creditcardklanten het meest waarschijnlijk zullen afhaken.

Exercise 1: Hyperparameters afstemmen Exercise 2: Genereer een tuningraster Exercise 3: Afstemmen langs het raster Exercise 4: Kies de winnaar Exercise 5: Meer modelmaten Exercise 6: Specificity berekenen Exercise 7: Teken de ROC-curve Exercise 8: Oppervlakte onder de ROC-curve Exercise 9: Gebagde bomen Exercise 10: Bagged trees maken Exercise 11: In-sample ROC en AUC Exercise 12: Controleer op overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Belang van variabelen

Klaar voor de eredivisie van boomgebaseerde modellen? Pas gradient boosting toe om krachtige ensembles te maken die beter presteren dan alles wat je tot nu toe hebt gezien of gebouwd. Leer hoe je ze fijn-afstemt en verschillende modellen vergelijkt om een winnaar voor productie te kiezen.

Exercise 1: Introductie tot boosting Exercise 2: Bagging vs. boosting Exercise 3: Specificeer een boosted ensemble Exercise 4: Gradient boosting Exercise 5: Train een boosted ensemble Exercise 6: Evalueer het ensemble Exercise 7: Vergelijk met één enkele classifier Exercise 8: Het boosted ensemble optimaliseren Exercise 9: Voorbereiden op afstemmen Exercise 10: Het echte afstemmen Exercise 11: Rond het model af Exercise 12: Modelvergelijking Exercise 13: Vergelijk AUC Exercise 14: ROC-curves plotten Exercise 15: Afronding