Prestazioni in-sample e out-of-sample

Un modello più sofisticato offre sempre prestazioni migliori? Come abbiamo visto nel video, questa è solo metà della verità.

I modelli overfitted colgono alla perfezione la struttura del set di addestramento ma non riescono a generalizzare a nuovi dati. Che seccatura! Alla fine, lo scopo principale di un modello predittivo è avere buone prestazioni su nuovi dati, giusto? Vai a indagare!

Sono già caricati l’ultimo modello dell’esercizio precedente, complex_model, e i tuoi dati di training e test (chocolate_train e chocolate_test).

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Predict on and combine with training data and calculate the error
predict(___, new_data = ___) %>%
	___ %>% 
	mae(___,
        ___)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

InicianteNível de habilidade

4.9+

Inizia il corso gratuitamente

Prontə a costruire una vera pipeline di Machine Learning? Completa esercizi guidati passo passo per imparare a creare alberi decisionali, suddividere i dati e prevedere quali pazienti hanno maggiore probabilità di soffrire di diabete. Infine, costruirai misure di performance per valutare i modelli e giudicare le tue previsioni.

Exercise 1: Benvenuto al corso!Exercise 2: Perché metodi basati su alberi?Exercise 3: Specifica quell'albero Exercise 4: Allena quel modello Exercise 5: Come far crescere il tuo albero Exercise 6: Suddivisione train/test Exercise 7: Evitare lo sbilanciamento delle classi Exercise 8: Da zero a eroe Exercise 9: Predici e valuta Exercise 10: Fai delle predizioni Exercise 11: Decifra la matrice Exercise 12: Stai prevedendo correttamente?

Prontə per un po’ di dolcezza? Usa un insieme di dati con valutazioni di cioccolato per costruire alberi di regressione e valutarne le prestazioni con adeguate misure d’errore. Supererai le incertezze statistiche dei singoli split train/test applicando tecniche “golose” come la cross-validation, per poi andare ancora più a fondo padroneggiando il compromesso bias-varianza.

Exercise 1: Esiti continui Exercise 2: Allena un albero di regressione Exercise 3: Predici nuovi valori Exercise 4: Esamina l'output del modello Exercise 5: Metriche di performance per gli alberi di regressione Exercise 6: Prestazioni in-sample Exercise 7: Prestazioni out-of-sample Exercise 8: Errori più grandi, penalità più grande Exercise 9: Cross-validation Exercise 10: Crea i fold Exercise 11: Esegui il fitting delle fold Exercise 12: Valuta le fold Exercise 13: Compromesso bias-varianza Exercise 14: Chiama le cose col loro nome Exercise 15: Regola la complessità del modello Exercise 16: Prestazioni in-sample e out-of-sample

Esercizio attuale

È il momento di fare sul serio con la messa a punto degli iperparametri e l’interpretazione delle curve ROC (receiver operating characteristic). In questo capitolo sfrutterai la saggezza della folla con modelli ensemble come bagging e random forest e costruirai ensemble che prevedono quali clienti con carta di credito hanno maggiore probabilità di abbandonare.

Exercise 1: Ottimizzazione degli iperparametri Exercise 2: Genera una griglia di tuning Exercise 3: Sintonizza lungo la griglia Exercise 4: Scegli il vincitore Exercise 5: Altre metriche del modello Exercise 6: Calcolare la specificità Exercise 7: Disegna la curva ROC Exercise 8: Area sotto la curva ROC Exercise 9: Alberi con bagging Exercise 10: Crea alberi bagged Exercise 11: ROC e AUC in-sample Exercise 12: Verifica l'overfitting Exercise 13: Random forest Exercise 14: Bagging vs. random forest Exercise 15: Importanza delle variabili

Prontə per l’alta società dei modelli ad albero? Applica il gradient boosting per creare potenti ensemble che superano tutto ciò che hai visto o costruito finora. Scopri come affinarli e confrontare modelli diversi per scegliere il vincitore da portare in produzione.

Exercise 1: Introduzione al boosting Exercise 2: Bagging vs. boosting Exercise 3: Specifica un ensemble potenziato (boosted)Exercise 4: Gradient boosting Exercise 5: Allena un ensemble potenziato Exercise 6: Valuta l'insieme Exercise 7: Confronta con un singolo classificatore Exercise 8: Ottimizza l'ensemble potenziato Exercise 9: Preparazione al tuning Exercise 10: La vera fase di tuning Exercise 11: Finalizza il modello Exercise 12: Confronto tra modelli Exercise 13: Confronta l'AUC Exercise 14: Traccia le curve ROC Exercise 15: Riepilogo