Evitare lo sbilanciamento delle classi

Alcuni dati hanno esiti molto sbilanciati, come nei casi di malattie rare. Se fai una suddivisione casuale, potresti ottenere un risultato davvero sfortunato. Immagina che tutte le osservazioni rare finiscano nel test e nessuna nel training set. Rovinerebbe l’intero processo di addestramento!

Per fortuna, la funzione initial_split() offre una soluzione. In questo esercizio osserverai e risolverai i cosiddetti sbilanciamenti di classe.

È già presente il codice per creare un oggetto di split diabetes_split con una suddivisione 75% training e 25% test.

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Preparation
set.seed(9888)
diabetes_split <- initial_split(diabetes, prop = 0.75)

# Proportion of 'yes' outcomes in the training data
counts_train <- table(training(___)$outcome)
prop_yes_train <- counts_train["___"] / sum(counts_train)

# Proportion of 'yes' outcomes in the test data
counts_test <- table(___)
prop_yes_test <- ___ / sum(___)

paste("Proportion of positive outcomes in training set:", round(prop_yes_train, 2))
paste("Proportion of positive outcomes in test set:", round(prop_yes_test, 2))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

InicianteNível de habilidade

4.9+

Inizia il corso gratuitamente

Prontə a costruire una vera pipeline di Machine Learning? Completa esercizi guidati passo passo per imparare a creare alberi decisionali, suddividere i dati e prevedere quali pazienti hanno maggiore probabilità di soffrire di diabete. Infine, costruirai misure di performance per valutare i modelli e giudicare le tue previsioni.

Exercise 1: Benvenuto al corso!Exercise 2: Perché metodi basati su alberi?Exercise 3: Specifica quell'albero Exercise 4: Allena quel modello Exercise 5: Come far crescere il tuo albero Exercise 6: Suddivisione train/test Exercise 7: Evitare lo sbilanciamento delle classi

Esercizio attuale

Exercise 8: Da zero a eroe Exercise 9: Predici e valuta Exercise 10: Fai delle predizioni Exercise 11: Decifra la matrice Exercise 12: Stai prevedendo correttamente?

Prontə per un po’ di dolcezza? Usa un insieme di dati con valutazioni di cioccolato per costruire alberi di regressione e valutarne le prestazioni con adeguate misure d’errore. Supererai le incertezze statistiche dei singoli split train/test applicando tecniche “golose” come la cross-validation, per poi andare ancora più a fondo padroneggiando il compromesso bias-varianza.

Exercise 1: Esiti continui Exercise 2: Allena un albero di regressione Exercise 3: Predici nuovi valori Exercise 4: Esamina l'output del modello Exercise 5: Metriche di performance per gli alberi di regressione Exercise 6: Prestazioni in-sample Exercise 7: Prestazioni out-of-sample Exercise 8: Errori più grandi, penalità più grande Exercise 9: Cross-validation Exercise 10: Crea i fold Exercise 11: Esegui il fitting delle fold Exercise 12: Valuta le fold Exercise 13: Compromesso bias-varianza Exercise 14: Chiama le cose col loro nome Exercise 15: Regola la complessità del modello Exercise 16: Prestazioni in-sample e out-of-sample

È il momento di fare sul serio con la messa a punto degli iperparametri e l’interpretazione delle curve ROC (receiver operating characteristic). In questo capitolo sfrutterai la saggezza della folla con modelli ensemble come bagging e random forest e costruirai ensemble che prevedono quali clienti con carta di credito hanno maggiore probabilità di abbandonare.

Exercise 1: Ottimizzazione degli iperparametri Exercise 2: Genera una griglia di tuning Exercise 3: Sintonizza lungo la griglia Exercise 4: Scegli il vincitore Exercise 5: Altre metriche del modello Exercise 6: Calcolare la specificità Exercise 7: Disegna la curva ROC Exercise 8: Area sotto la curva ROC Exercise 9: Alberi con bagging Exercise 10: Crea alberi bagged Exercise 11: ROC e AUC in-sample Exercise 12: Verifica l'overfitting Exercise 13: Random forest Exercise 14: Bagging vs. random forest Exercise 15: Importanza delle variabili

Prontə per l’alta società dei modelli ad albero? Applica il gradient boosting per creare potenti ensemble che superano tutto ciò che hai visto o costruito finora. Scopri come affinarli e confrontare modelli diversi per scegliere il vincitore da portare in produzione.

Exercise 1: Introduzione al boosting Exercise 2: Bagging vs. boosting Exercise 3: Specifica un ensemble potenziato (boosted)Exercise 4: Gradient boosting Exercise 5: Allena un ensemble potenziato Exercise 6: Valuta l'insieme Exercise 7: Confronta con un singolo classificatore Exercise 8: Ottimizza l'ensemble potenziato Exercise 9: Preparazione al tuning Exercise 10: La vera fase di tuning Exercise 11: Finalizza il modello Exercise 12: Confronto tra modelli Exercise 13: Confronta l'AUC Exercise 14: Traccia le curve ROC Exercise 15: Riepilogo