Da zero a eroe

Hai imparato a creare una specifica di modello e a suddividere i dati in training set e test set. Sai anche come evitare squilibri di classe nello split. È il momento di mettere insieme quanto hai appreso nella lezione precedente e costruire il modello usando solo il training set!

Stai per creare una vera e propria machine learning pipeline. Comprende la creazione della specifica del modello, la suddivisione dei dati in training e test set e, ultimo ma non meno importante, il fit del training set su un modello. Buon lavoro!

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

Visualizza corso

Istruzioni dell'esercizio

Crea diabetes_split, uno split in cui il training set contiene tre quarti di tutte le righe di diabetes e in cui training e test set hanno una distribuzione simile nella variabile outcome.
Costruisci la specifica di un albero di decisione per il tuo modello usando il motore rpart e salvala come tree_spec.
Effettua il fit di un modello model_trained usando i dati di training di diabetes_split, con outcome come variabile target e bmi e skin_thickness come predittori.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

set.seed(9)

# Create the balanced data split
diabetes_split <- ___

# Build the specification of the model
tree_spec <- ___ %>% 
  ___ %>% 
  ___

# Train the model
model_trained <- ___ %>% 
  fit(___, 
      ___)

model_trained

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

InicianteNível de habilidade

4.9+

Inizia il corso gratuitamente

Prontə a costruire una vera pipeline di Machine Learning? Completa esercizi guidati passo passo per imparare a creare alberi decisionali, suddividere i dati e prevedere quali pazienti hanno maggiore probabilità di soffrire di diabete. Infine, costruirai misure di performance per valutare i modelli e giudicare le tue previsioni.

Exercise 1: Benvenuto al corso!Exercise 2: Perché metodi basati su alberi?Exercise 3: Specifica quell'albero Exercise 4: Allena quel modello Exercise 5: Come far crescere il tuo albero Exercise 6: Suddivisione train/test Exercise 7: Evitare lo sbilanciamento delle classi Exercise 8: Da zero a eroe

Esercizio attuale

Exercise 9: Predici e valuta Exercise 10: Fai delle predizioni Exercise 11: Decifra la matrice Exercise 12: Stai prevedendo correttamente?

Prontə per un po’ di dolcezza? Usa un insieme di dati con valutazioni di cioccolato per costruire alberi di regressione e valutarne le prestazioni con adeguate misure d’errore. Supererai le incertezze statistiche dei singoli split train/test applicando tecniche “golose” come la cross-validation, per poi andare ancora più a fondo padroneggiando il compromesso bias-varianza.

Exercise 1: Esiti continui Exercise 2: Allena un albero di regressione Exercise 3: Predici nuovi valori Exercise 4: Esamina l'output del modello Exercise 5: Metriche di performance per gli alberi di regressione Exercise 6: Prestazioni in-sample Exercise 7: Prestazioni out-of-sample Exercise 8: Errori più grandi, penalità più grande Exercise 9: Cross-validation Exercise 10: Crea i fold Exercise 11: Esegui il fitting delle fold Exercise 12: Valuta le fold Exercise 13: Compromesso bias-varianza Exercise 14: Chiama le cose col loro nome Exercise 15: Regola la complessità del modello Exercise 16: Prestazioni in-sample e out-of-sample

È il momento di fare sul serio con la messa a punto degli iperparametri e l’interpretazione delle curve ROC (receiver operating characteristic). In questo capitolo sfrutterai la saggezza della folla con modelli ensemble come bagging e random forest e costruirai ensemble che prevedono quali clienti con carta di credito hanno maggiore probabilità di abbandonare.

Exercise 1: Ottimizzazione degli iperparametri Exercise 2: Genera una griglia di tuning Exercise 3: Sintonizza lungo la griglia Exercise 4: Scegli il vincitore Exercise 5: Altre metriche del modello Exercise 6: Calcolare la specificità Exercise 7: Disegna la curva ROC Exercise 8: Area sotto la curva ROC Exercise 9: Alberi con bagging Exercise 10: Crea alberi bagged Exercise 11: ROC e AUC in-sample Exercise 12: Verifica l'overfitting Exercise 13: Random forest Exercise 14: Bagging vs. random forest Exercise 15: Importanza delle variabili

Prontə per l’alta società dei modelli ad albero? Applica il gradient boosting per creare potenti ensemble che superano tutto ciò che hai visto o costruito finora. Scopri come affinarli e confrontare modelli diversi per scegliere il vincitore da portare in produzione.

Exercise 1: Introduzione al boosting Exercise 2: Bagging vs. boosting Exercise 3: Specifica un ensemble potenziato (boosted)Exercise 4: Gradient boosting Exercise 5: Allena un ensemble potenziato Exercise 6: Valuta l'insieme Exercise 7: Confronta con un singolo classificatore Exercise 8: Ottimizza l'ensemble potenziato Exercise 9: Preparazione al tuning Exercise 10: La vera fase di tuning Exercise 11: Finalizza il modello Exercise 12: Confronto tra modelli Exercise 13: Confronta l'AUC Exercise 14: Traccia le curve ROC Exercise 15: Riepilogo