Utilizzare gli indici di KFold

Hai già creato splits, che contiene gli indici per il dataset candy-data per eseguire una cross-validation a 5 fold. Per ottenere una stima migliore di come si comporterà su nuovi dati il modello Random Forest di un collega, vuoi eseguire questo modello sui cinque diversi indici di training e validazione che hai appena creato.

In questo esercizio userai questi indici per verificare l'accuratezza del modello usando i cinque diversi split. Ti è stato fornito un ciclo for per aiutarti in questo processo.

Questo esercizio fa parte del corso

Validazione dei modelli in Python

Visualizza corso

Istruzioni dell'esercizio

Usa train_index e val_index per richiamare gli indici corretti di X e y quando crei i dati di training e di validazione.
Esegui il fit di rfc usando il dataset di training
Usa rfc per creare le previsioni sul dataset di validazione e stampa l'accuratezza di validazione

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

rfc = RandomForestRegressor(n_estimators=25, random_state=1111)

# Access the training and validation indices of splits
for train_index, val_index in splits:
    # Setup the training and validation data
    X_train, y_train = X[____], y[____]
    X_val, y_val = X[____], y[____]
    # Fit the random forest model
    rfc.____(____, ____)
    # Make predictions, and print the accuracy
    predictions = rfc.____(____)
    print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Validazione dei modelli in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Prima di poter validare i modelli, dobbiamo capire come crearli e utilizzarli. Questo capitolo introduce l’esecuzione di modelli di regressione e classificazione in scikit-learn. Useremo queste basi per la costruzione dei modelli in tutti i capitoli successivi.

Exercise 1: Introduzione alla validazione dei modelli Exercise 2: Fasi del modeling Exercise 3: Dati visti vs. dati mai visti Exercise 4: Modelli di regressione Exercise 5: Imposta i parametri e addestra un modello Exercise 6: Importanza delle feature Exercise 7: Modelli di classificazione Exercise 8: Predizioni di classificazione Exercise 9: Riutilizzare i parametri del modello Exercise 10: Classificatore random forest

Questo capitolo si concentra sulle basi della validazione dei modelli. Dallo split dei dati in insiemi di training, validation e testing, fino a comprendere il compromesso bias-varianza, gettiamo le fondamenta per le tecniche di validazione K-Fold e Leave-One-Out che metteremo in pratica nel capitolo tre.

Exercise 1: Creare insiemi di dati di training, test e validation Exercise 2: Crea un set di holdout Exercise 3: Crea due holdout set Exercise 4: Perché usare gli insiemi di holdout Exercise 5: Metriche di accuratezza: modelli di regressione Exercise 6: Errore assoluto medio Exercise 7: Errore quadratico medio Exercise 8: Prestazioni su sottoinsiemi di dati Exercise 9: Metriche di classificazione Exercise 10: Matrici di confusione Exercise 11: Ancora sulle confusion matrix Exercise 12: Precision vs. recall Exercise 13: Il compromesso bias-varianza Exercise 14: Errore dovuto a under/overfitting Exercise 15: Sto underfittando?

I set di holdout sono un ottimo punto di partenza per la validazione dei modelli. Tuttavia, usare un singolo train e test set spesso non basta. La cross-validation è considerata il gold standard per validare le prestazioni del modello ed è quasi sempre utilizzata quando si ottimizzano gli iperparametri. Questo capitolo è dedicato all’esecuzione della cross-validation per validare le prestazioni del modello.

Exercise 1: I limiti dei set di holdout Exercise 2: Due campioni Exercise 3: Problemi potenziali Exercise 4: Validazione incrociata Exercise 5: `KFold()` di scikit-learn Exercise 6: Utilizzare gli indici di KFold

Esercizio attuale

Exercise 7: cross_val_score() di sklearn Exercise 8: Metodi di scikit-learn Exercise 9: Usa cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usare LOOCV Exercise 12: Leave-one-out cross-validation

I primi tre capitoli si sono concentrati sulle tecniche di validazione dei modelli. Nel capitolo 4 applichiamo queste tecniche, in particolare la cross-validation, mentre impariamo l’ottimizzazione degli iperparametri. In fin dei conti, la validazione rende possibile l’ottimizzazione e ci aiuta a selezionare il modello complessivo migliore.

Exercise 1: Introduzione all'hyperparameter tuning Exercise 2: Creare gli iperparametri Exercise 3: Eseguire un modello usando intervalli Exercise 4: RandomizedSearchCV Exercise 5: Preparazione a RandomizedSearch Exercise 6: Implementare RandomizedSearchCV Exercise 7: Selezionare il modello finale Exercise 8: Migliore accuratezza di classificazione Exercise 9: Selezionare il modello con la precision migliore Exercise 10: Corso completato!