Sto underfittando?

Stai creando un modello di random forest per prevedere se vincerai una futura partita di Tris (Tic-Tac-Toe). Usando l'insieme di dati tic_tac_toe, hai creato gli insiemi di dati di training e di test, X_train, X_test, y_train e y_test.

Hai deciso di creare una serie di modelli di random forest con quantità variabili di alberi (1, 2, 3, 4, 5, 10, 20 e 50). Più alberi usi, più tempo impiegherà il tuo modello di random forest per essere eseguito. Tuttavia, se non usi abbastanza alberi, rischi l'underfitting. Hai creato un ciclo for per testare il tuo modello con diversi numeri di alberi.

Questo esercizio fa parte del corso

Validazione dei modelli in Python

Visualizza corso

Istruzioni dell'esercizio

A ogni iterazione, predici i valori sia per gli insiemi di dati X_train che X_test.
A ogni iterazione, aggiungi a train_scores l'accuracy_score() del dataset y_train e delle corrispondenti predizioni.
A ogni iterazione, aggiungi a test_scores l'accuracy_score() del dataset y_test e delle corrispondenti predizioni.
Stampa gli score di training e di test usando le istruzioni di stampa.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from sklearn.metrics import accuracy_score

test_scores, train_scores = [], []
for i in [1, 2, 3, 4, 5, 10, 20, 50]:
    rfc = RandomForestClassifier(n_estimators=i, random_state=1111)
    rfc.fit(X_train, y_train)
    # Create predictions for the X_train and X_test datasets.
    train_predictions = rfc.predict(____)
    test_predictions = rfc.predict(____)
    # Append the accuracy score for the test and train predictions.
    train_scores.append(round(____(____, ____), 2))
    test_scores.append(round(____(____, ____), 2))
# Print the train and test scores.
print("The training scores were: {}".format(____))
print("The testing scores were: {}".format(____))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Validazione dei modelli in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Prima di poter validare i modelli, dobbiamo capire come crearli e utilizzarli. Questo capitolo introduce l’esecuzione di modelli di regressione e classificazione in scikit-learn. Useremo queste basi per la costruzione dei modelli in tutti i capitoli successivi.

Exercise 1: Introduzione alla validazione dei modelli Exercise 2: Fasi del modeling Exercise 3: Dati visti vs. dati mai visti Exercise 4: Modelli di regressione Exercise 5: Imposta i parametri e addestra un modello Exercise 6: Importanza delle feature Exercise 7: Modelli di classificazione Exercise 8: Predizioni di classificazione Exercise 9: Riutilizzare i parametri del modello Exercise 10: Classificatore random forest

Questo capitolo si concentra sulle basi della validazione dei modelli. Dallo split dei dati in insiemi di training, validation e testing, fino a comprendere il compromesso bias-varianza, gettiamo le fondamenta per le tecniche di validazione K-Fold e Leave-One-Out che metteremo in pratica nel capitolo tre.

Exercise 1: Creare insiemi di dati di training, test e validation Exercise 2: Crea un set di holdout Exercise 3: Crea due holdout set Exercise 4: Perché usare gli insiemi di holdout Exercise 5: Metriche di accuratezza: modelli di regressione Exercise 6: Errore assoluto medio Exercise 7: Errore quadratico medio Exercise 8: Prestazioni su sottoinsiemi di dati Exercise 9: Metriche di classificazione Exercise 10: Matrici di confusione Exercise 11: Ancora sulle confusion matrix Exercise 12: Precision vs. recall Exercise 13: Il compromesso bias-varianza Exercise 14: Errore dovuto a under/overfitting Exercise 15: Sto underfittando?

Esercizio attuale

I set di holdout sono un ottimo punto di partenza per la validazione dei modelli. Tuttavia, usare un singolo train e test set spesso non basta. La cross-validation è considerata il gold standard per validare le prestazioni del modello ed è quasi sempre utilizzata quando si ottimizzano gli iperparametri. Questo capitolo è dedicato all’esecuzione della cross-validation per validare le prestazioni del modello.

Exercise 1: I limiti dei set di holdout Exercise 2: Due campioni Exercise 3: Problemi potenziali Exercise 4: Validazione incrociata Exercise 5: `KFold()` di scikit-learn Exercise 6: Utilizzare gli indici di KFold Exercise 7: cross_val_score() di sklearn Exercise 8: Metodi di scikit-learn Exercise 9: Usa cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usare LOOCV Exercise 12: Leave-one-out cross-validation

I primi tre capitoli si sono concentrati sulle tecniche di validazione dei modelli. Nel capitolo 4 applichiamo queste tecniche, in particolare la cross-validation, mentre impariamo l’ottimizzazione degli iperparametri. In fin dei conti, la validazione rende possibile l’ottimizzazione e ci aiuta a selezionare il modello complessivo migliore.

Exercise 1: Introduzione all'hyperparameter tuning Exercise 2: Creare gli iperparametri Exercise 3: Eseguire un modello usando intervalli Exercise 4: RandomizedSearchCV Exercise 5: Preparazione a RandomizedSearch Exercise 6: Implementare RandomizedSearchCV Exercise 7: Selezionare il modello finale Exercise 8: Migliore accuratezza di classificazione Exercise 9: Selezionare il modello con la precision migliore Exercise 10: Corso completato!