Allena il tuo primo albero di classificazione

In questo esercizio lavorerai con il Wisconsin Breast Cancer Dataset dall'UCI Machine Learning Repository. Prevedrai se un tumore è maligno o benigno in base a due feature: il raggio medio del tumore (radius_mean) e il numero medio di punti concavi (concave points_mean).

Il dataset è già caricato nel tuo workspace ed è suddiviso in 80% train e 20% test. Le matrici delle feature sono assegnate a X_train e X_test, mentre gli array delle etichette sono assegnati a y_train e y_test, dove la classe 1 corrisponde a un tumore maligno e la classe 0 a un tumore benigno. Per ottenere risultati riproducibili, abbiamo anche definito una variabile chiamata SEED impostata a 1.

Questo esercizio fa parte del corso

Machine Learning con modelli ad alberi in Python

Visualizza corso

Istruzioni dell'esercizio

Importa DecisionTreeClassifier da sklearn.tree.
Istanzia un DecisionTreeClassifier dt con profondità massima pari a 6.
Adatta dt al training set.
Prevedi le etichette del test set e assegna il risultato a y_pred.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Machine Learning con modelli ad alberi in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Gli Alberi di Classificazione e Regressione (CART) sono una famiglia di modelli di apprendimento supervisionato usati per problemi di classificazione e regressione. In questo capitolo verrà introdotto l’algoritmo CART.

Exercise 1: Albero decisionale per la classificazione Exercise 2: Allena il tuo primo albero di classificazione

Esercizio attuale

Exercise 3: Valuta l'albero di classificazione Exercise 4: Regressione logistica vs albero di classificazione Exercise 5: Apprendimento dell'albero di classificazione Exercise 6: Far crescere un albero di classificazione Exercise 7: Usare l'entropia come criterio Exercise 8: Entropia vs indice di Gini Exercise 9: Albero decisionale per la regressione Exercise 10: Allena il tuo primo albero di regressione Exercise 11: Valuta l’albero di regressione Exercise 12: Regressione lineare vs albero di regressione

Il compromesso bias-varianza è uno dei concetti fondamentali nel Machine Learning supervisionato. In questo capitolo capirai come diagnosticare i problemi di overfitting e underfitting. Sarai inoltre introdotto al concetto di ensembling, in cui le predizioni di più modelli vengono aggregate per ottenere risultati più robusti.

Exercise 1: Errore di generalizzazione Exercise 2: Complessità, bias e varianza Exercise 3: Overfitting e underfitting Exercise 4: Diagnostica i problemi di bias e varianza Exercise 5: Istanzia il modello Exercise 6: Valuta l'errore di CV a 10 fold Exercise 7: Valutare l'errore di training Exercise 8: Bias alto o varianza alta?Exercise 9: Ensemble Learning Exercise 10: Definisci l'ensemble Exercise 11: Valuta i singoli classificatori Exercise 12: Prestazioni migliori con un Voting Classifier

Il bagging è un metodo ensemble che prevede l’addestramento ripetuto dello stesso algoritmo su diversi sottoinsiemi campionati dai dati di training. In questo capitolo capirai come usare il bagging per creare un ensemble di alberi. Imparerai anche come l’algoritmo delle Random Forest può aumentare ulteriormente la diversità dell’ensemble introducendo randomizzazione a livello di ogni split negli alberi che lo compongono.

Exercise 1: Bagging Exercise 2: Definisci il classificatore bagging Exercise 3: Valutare le prestazioni del Bagging Exercise 4: Valutazione Out-of-Bag Exercise 5: Prepara il terreno Exercise 6: Punteggio OOB vs punteggio sul test set Exercise 7: Random Forests (RF)Exercise 8: Allena un regressore RF Exercise 9: Valuta il regressore RF Exercise 10: Visualizzare l'importanza delle feature

Per boosting si intende un metodo ensemble in cui più modelli vengono addestrati in sequenza e ciascun modello impara dagli errori dei precedenti. In questo capitolo verranno presentati i due metodi di boosting AdaBoost e Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Definisci il classificatore AdaBoost Exercise 3: Allena il classificatore AdaBoost Exercise 4: Valuta il classificatore AdaBoost Exercise 5: Gradient Boosting (GB)Exercise 6: Definisci il regressore GB Exercise 7: Allena il regressore GB Exercise 8: Valuta il regressore GB Exercise 9: Stochastic Gradient Boosting (SGB)Exercise 10: Regressione con SGB Exercise 11: Allena il regressore SGB Exercise 12: Valuta il regressore SGB

Gli iperparametri di un modello di Machine Learning sono parametri che non vengono appresi dai dati. Devono essere impostati prima di adattare il modello al training set. In questo capitolo imparerai a ottimizzare gli iperparametri di un modello basato su alberi usando la cross validation con grid search.

Exercise 1: Ottimizzare gli iperparametri di un CART Exercise 2: Iperparametri dell'albero Exercise 3: Imposta la griglia di iperparametri dell'albero Exercise 4: Cerca l'albero ottimale Exercise 5: Valuta l’albero ottimale Exercise 6: Ottimizzare gli iperparametri di una RF Exercise 7: Iperparametri delle Random Forest Exercise 8: Imposta la griglia di iperparametri di RF Exercise 9: Cerca la foresta ottimale Exercise 10: Valuta la foresta ottimale Exercise 11: Congratulazioni!