Crea due holdout set

Di recente hai creato un semplice modello di random forest per prevedere le vittorie a Tris per la tua responsabile e, su sua richiesta, non hai effettuato alcun tuning dei parametri. Purtroppo, l'accuratezza complessiva del modello era troppo bassa per i suoi standard. Questa volta ti ha chiesto di concentrarti sulle prestazioni del modello.

Prima di iniziare a testare modelli diversi e set di parametri, dovrai suddividere i dati in insiemi di addestramento, validazione e test. Ricorda che, dopo aver diviso i dati in insiemi di addestramento e test, l'insieme di validazione si crea suddividendo ulteriormente l'insieme di addestramento.

Gli insiemi di dati X e y sono già stati caricati per te.

Questo esercizio fa parte del corso

Validazione dei modelli in Python

Visualizza corso

Istruzioni dell'esercizio

Crea insiemi di dati temporanei e di test (X_test, y_test). Usa il 20% dei dati complessivi per gli insiemi di test.
Usando gli insiemi temporanei (X_temp, y_temp), crea gli insiemi di addestramento (X_train, y_train) e validazione (X_val, y_val).
Usa il 25% dei dati temporanei per gli insiemi di validazione.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Validazione dei modelli in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Prima di poter validare i modelli, dobbiamo capire come crearli e utilizzarli. Questo capitolo introduce l’esecuzione di modelli di regressione e classificazione in scikit-learn. Useremo queste basi per la costruzione dei modelli in tutti i capitoli successivi.

Exercise 1: Introduzione alla validazione dei modelli Exercise 2: Fasi del modeling Exercise 3: Dati visti vs. dati mai visti Exercise 4: Modelli di regressione Exercise 5: Imposta i parametri e addestra un modello Exercise 6: Importanza delle feature Exercise 7: Modelli di classificazione Exercise 8: Predizioni di classificazione Exercise 9: Riutilizzare i parametri del modello Exercise 10: Classificatore random forest

Questo capitolo si concentra sulle basi della validazione dei modelli. Dallo split dei dati in insiemi di training, validation e testing, fino a comprendere il compromesso bias-varianza, gettiamo le fondamenta per le tecniche di validazione K-Fold e Leave-One-Out che metteremo in pratica nel capitolo tre.

Exercise 1: Creare insiemi di dati di training, test e validation Exercise 2: Crea un set di holdout Exercise 3: Crea due holdout set

Esercizio attuale

Exercise 4: Perché usare gli insiemi di holdout Exercise 5: Metriche di accuratezza: modelli di regressione Exercise 6: Errore assoluto medio Exercise 7: Errore quadratico medio Exercise 8: Prestazioni su sottoinsiemi di dati Exercise 9: Metriche di classificazione Exercise 10: Matrici di confusione Exercise 11: Ancora sulle confusion matrix Exercise 12: Precision vs. recall Exercise 13: Il compromesso bias-varianza Exercise 14: Errore dovuto a under/overfitting Exercise 15: Sto underfittando?

I set di holdout sono un ottimo punto di partenza per la validazione dei modelli. Tuttavia, usare un singolo train e test set spesso non basta. La cross-validation è considerata il gold standard per validare le prestazioni del modello ed è quasi sempre utilizzata quando si ottimizzano gli iperparametri. Questo capitolo è dedicato all’esecuzione della cross-validation per validare le prestazioni del modello.

Exercise 1: I limiti dei set di holdout Exercise 2: Due campioni Exercise 3: Problemi potenziali Exercise 4: Validazione incrociata Exercise 5: `KFold()` di scikit-learn Exercise 6: Utilizzare gli indici di KFold Exercise 7: cross_val_score() di sklearn Exercise 8: Metodi di scikit-learn Exercise 9: Usa cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usare LOOCV Exercise 12: Leave-one-out cross-validation

I primi tre capitoli si sono concentrati sulle tecniche di validazione dei modelli. Nel capitolo 4 applichiamo queste tecniche, in particolare la cross-validation, mentre impariamo l’ottimizzazione degli iperparametri. In fin dei conti, la validazione rende possibile l’ottimizzazione e ci aiuta a selezionare il modello complessivo migliore.

Exercise 1: Introduzione all'hyperparameter tuning Exercise 2: Creare gli iperparametri Exercise 3: Eseguire un modello usando intervalli Exercise 4: RandomizedSearchCV Exercise 5: Preparazione a RandomizedSearch Exercise 6: Implementare RandomizedSearchCV Exercise 7: Selezionare il modello finale Exercise 8: Migliore accuratezza di classificazione Exercise 9: Selezionare il modello con la precision migliore Exercise 10: Corso completato!