1
Árvores de classificação e regressão
Gratuit
As árvores de classificação e regressão (CART) são um conjunto de modelos de aprendizado supervisionados usados para problemas que envolvem classificação e regressão. Neste capítulo, você conhecerá o algoritmo CART.
2
O comprometimento entre viés e variância
A troca de viés e variância é um dos conceitos fundamentais do aprendizado de máquina supervisionado. Neste capítulo, você entenderá como diagnosticar os problemas de sobreajuste e subajuste. Você também conhecerá o conceito de agrupamento, em que as previsões de vários modelos são agregadas para produzir previsões mais robustas.
3
Agregação de Bootstrap e Florestas Aleatórias
Agregação de bootstrap é um método de agrupamento que envolve o treinamento do mesmo algoritmo várias vezes usando diferentes subconjuntos amostrados dos dados de treinamento. Neste capítulo, você entenderá como a agregação de bootstrap pode ser usada para criar um agrupamento de árvores. Você também aprenderá como o algoritmo de florestas aleatórias pode levar a uma maior diversidade de agrupamentos por meio da randomização no nível de cada divisão nas árvores que formam o agrupamento.
4
Boosting
Boosting refere-se a um método de agrupamento no qual vários modelos são treinados sequencialmente com cada modelo aprendendo com os erros de seus predecessores. Neste capítulo, você conhecerá os dois métodos de boosting do AdaBoost e do Gradient Boosting.
5
Ajuste de modelo
Os hiperparâmetros de um modelo de aprendizado de máquina são parâmetros que não são aprendidos com os dados. Eles devem ser definidos antes de você ajustar o modelo ao conjunto de treinamento. Neste capítulo, você aprenderá a ajustar os hiperparâmetros de um modelo baseado em árvore usando a validação cruzada de pesquisa de grade.

Initializing

Avaliar a árvore ideal

Neste exercício, você avaliará a pontuação do conjunto de teste ROC AUC do modelo ideal de grid_dt.

Para fazer isso, primeiro você determinará a probabilidade de obter o rótulo positivo para cada observação do conjunto de teste. Você pode usar o métodopredict_proba() de um classificador do sklearn para calcular uma matriz 2D contendo as probabilidades dos rótulos de classe negativo e positivo, respectivamente, ao longo das colunas.

O conjunto de dados já está carregado e processado para você (os recursos numéricos são padronizados); ele está dividido em 80% de treinamento e 20% de teste. X_test e y_test estão disponíveis em seu espaço de trabalho. Além disso, também carregamos o objeto GridSearchCV treinado grid_dt que você instanciou no exercício anterior. Observe que grid_dt foi treinado da seguinte forma:

grid_dt.fit(X_train, y_train)

Importe roc_auc_score de sklearn.metrics.
Extraia o atributo .best_estimator_ de grid_dt e atribua-o a best_model.
Preveja as probabilidades do conjunto de teste de obter a classe positiva y_pred_proba.
Calcule a pontuação do conjunto de teste ROC AUC test_roc_auc de best_model.