Valuta l’albero ottimale

In questo esercizio valuterai l’AUC ROC sul test set del modello ottimale di grid_dt.

Per farlo, prima determinerai la probabilità di ottenere l’etichetta positiva per ciascuna osservazione del test set. Puoi usare il metodo predict_proba() di un classificatore di scikit-learn per calcolare un array 2D che contiene, rispettivamente per colonne, le probabilità delle etichette di classe negativa e positiva.

Il dataset è già caricato e preprocessato per te (le caratteristiche numeriche sono standardizzate); è suddiviso in 80% train e 20% test. X_test, y_test sono disponibili nel tuo workspace. Inoltre, abbiamo già caricato l’oggetto GridSearchCV addestrato grid_dt che hai istanziato nell’esercizio precedente. Nota che grid_dt è stato addestrato come segue:

grid_dt.fit(X_train, y_train)

Questo esercizio fa parte del corso

Machine Learning con modelli ad alberi in Python

Visualizza corso

Istruzioni dell'esercizio

Importa roc_auc_score da sklearn.metrics.
Estrai l’attributo .best_estimator_ da grid_dt e assegnalo a best_model.
Predici le probabilità del test set di ottenere la classe positiva in y_pred_proba.
Calcola l’AUC ROC sul test set test_roc_auc di best_model.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import roc_auc_score from sklearn.metrics
____

# Extract the best estimator
best_model = ____

# Predict the test set probabilities of the positive class
y_pred_proba = ____

# Compute test_roc_auc
test_roc_auc = ____

# Print test_roc_auc
print('Test set ROC AUC score: {:.3f}'.format(test_roc_auc))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Machine Learning con modelli ad alberi in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Gli Alberi di Classificazione e Regressione (CART) sono una famiglia di modelli di apprendimento supervisionato usati per problemi di classificazione e regressione. In questo capitolo verrà introdotto l’algoritmo CART.

Exercise 1: Albero decisionale per la classificazione Exercise 2: Allena il tuo primo albero di classificazione Exercise 3: Valuta l'albero di classificazione Exercise 4: Regressione logistica vs albero di classificazione Exercise 5: Apprendimento dell'albero di classificazione Exercise 6: Far crescere un albero di classificazione Exercise 7: Usare l'entropia come criterio Exercise 8: Entropia vs indice di Gini Exercise 9: Albero decisionale per la regressione Exercise 10: Allena il tuo primo albero di regressione Exercise 11: Valuta l’albero di regressione Exercise 12: Regressione lineare vs albero di regressione

Il compromesso bias-varianza è uno dei concetti fondamentali nel Machine Learning supervisionato. In questo capitolo capirai come diagnosticare i problemi di overfitting e underfitting. Sarai inoltre introdotto al concetto di ensembling, in cui le predizioni di più modelli vengono aggregate per ottenere risultati più robusti.

Exercise 1: Errore di generalizzazione Exercise 2: Complessità, bias e varianza Exercise 3: Overfitting e underfitting Exercise 4: Diagnostica i problemi di bias e varianza Exercise 5: Istanzia il modello Exercise 6: Valuta l'errore di CV a 10 fold Exercise 7: Valutare l'errore di training Exercise 8: Bias alto o varianza alta?Exercise 9: Ensemble Learning Exercise 10: Definisci l'ensemble Exercise 11: Valuta i singoli classificatori Exercise 12: Prestazioni migliori con un Voting Classifier

Il bagging è un metodo ensemble che prevede l’addestramento ripetuto dello stesso algoritmo su diversi sottoinsiemi campionati dai dati di training. In questo capitolo capirai come usare il bagging per creare un ensemble di alberi. Imparerai anche come l’algoritmo delle Random Forest può aumentare ulteriormente la diversità dell’ensemble introducendo randomizzazione a livello di ogni split negli alberi che lo compongono.

Exercise 1: Bagging Exercise 2: Definisci il classificatore bagging Exercise 3: Valutare le prestazioni del Bagging Exercise 4: Valutazione Out-of-Bag Exercise 5: Prepara il terreno Exercise 6: Punteggio OOB vs punteggio sul test set Exercise 7: Random Forests (RF)Exercise 8: Allena un regressore RF Exercise 9: Valuta il regressore RF Exercise 10: Visualizzare l'importanza delle feature

Per boosting si intende un metodo ensemble in cui più modelli vengono addestrati in sequenza e ciascun modello impara dagli errori dei precedenti. In questo capitolo verranno presentati i due metodi di boosting AdaBoost e Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Definisci il classificatore AdaBoost Exercise 3: Allena il classificatore AdaBoost Exercise 4: Valuta il classificatore AdaBoost Exercise 5: Gradient Boosting (GB)Exercise 6: Definisci il regressore GB Exercise 7: Allena il regressore GB Exercise 8: Valuta il regressore GB Exercise 9: Stochastic Gradient Boosting (SGB)Exercise 10: Regressione con SGB Exercise 11: Allena il regressore SGB Exercise 12: Valuta il regressore SGB

Gli iperparametri di un modello di Machine Learning sono parametri che non vengono appresi dai dati. Devono essere impostati prima di adattare il modello al training set. In questo capitolo imparerai a ottimizzare gli iperparametri di un modello basato su alberi usando la cross validation con grid search.

Exercise 1: Ottimizzare gli iperparametri di un CART Exercise 2: Iperparametri dell'albero Exercise 3: Imposta la griglia di iperparametri dell'albero Exercise 4: Cerca l'albero ottimale Exercise 5: Valuta l’albero ottimale

Esercizio attuale

Exercise 6: Ottimizzare gli iperparametri di una RF Exercise 7: Iperparametri delle Random Forest Exercise 8: Imposta la griglia di iperparametri di RF Exercise 9: Cerca la foresta ottimale Exercise 10: Valuta la foresta ottimale Exercise 11: Congratulazioni!