Treine sua primeira árvore de classificação

Neste exercício, você trabalhará com o Conjunto de Dados de Câncer de Mama de Wisconsin do repositório de aprendizado de máquina UCI. Você poderá prever se um tumor é maligno ou benigno com base em duas características: o raio médio do tumor (radius_mean) e seu número médio de pontos côncavos (concave points_mean).

O conjunto de dados já está carregado em seu espaço de trabalho e está dividido em 80% de treinamento e 20% de teste. As matrizes de recursos são atribuídas a X_train e X_test, enquanto as matrizes de rótulos são atribuídas a y_train e y_test, onde a classe 1 corresponde a um tumor maligno e a classe 0 corresponde a um tumor benigno. Para obter resultados reproduzíveis, também definimos uma variável chamada SEED, que é definida como 1.

Este exercicio faz parte do curso

Aprendizado de máquina com modelos baseados em árvores em Python

Instruções do exercicio

Importe DecisionTreeClassifier de sklearn.tree.
Instancie um DecisionTreeClassifier dt com profundidade máxima igual a 6.
Ajuste dt ao conjunto de treinamento.
Preveja os rótulos do conjunto de teste e atribua o resultado a y_pred.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])

Editar e Executar Código

Este exercicio faz parte do curso

Aprendizado de máquina com modelos baseados em árvores em Python

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

As árvores de classificação e regressão (CART) são um conjunto de modelos de aprendizado supervisionados usados para problemas que envolvem classificação e regressão. Neste capítulo, você conhecerá o algoritmo CART.

Exercise 1: Árvore de decisão para classificação Exercise 2: Treine sua primeira árvore de classificação

Exercicio Atual

Exercise 3: Avaliar a árvore de classificação Exercise 4: Regressão logística vs. árvore de classificação Exercise 5: Aprendizado de árvore de classificação Exercise 6: Crescimento de uma árvore de classificação Exercise 7: Usando a entropia como um critério Exercise 8: Entropia versus índice de Gini Exercise 9: Árvore de decisão para regressão Exercise 10: Treine sua primeira árvore de regressão Exercise 11: Avaliar a árvore de regressão Exercise 12: Regressão linear versus árvore de regressão

A troca de viés e variância é um dos conceitos fundamentais do aprendizado de máquina supervisionado. Neste capítulo, você entenderá como diagnosticar os problemas de sobreajuste e subajuste. Você também conhecerá o conceito de agrupamento, em que as previsões de vários modelos são agregadas para produzir previsões mais robustas.

Exercise 1: Erro de generalização Exercise 2: Complexidade, viés e variação Exercise 3: Sobreajuste e subajuste Exercise 4: Diagnosticar problemas de viés e variância Exercise 5: Instanciar o modelo Exercise 6: Avaliar o erro de 10 vezes CV Exercise 7: Avaliar o erro de treinamento Exercise 8: Alta tendência ou alta variação?Exercise 9: Aprendizado por agrupamento Exercise 10: Definir o agrupamento Exercise 11: Avaliar classificadores individuais Exercise 12: Melhor desempenho com um classificador de votação

Agregação de bootstrap é um método de agrupamento que envolve o treinamento do mesmo algoritmo várias vezes usando diferentes subconjuntos amostrados dos dados de treinamento. Neste capítulo, você entenderá como a agregação de bootstrap pode ser usada para criar um agrupamento de árvores. Você também aprenderá como o algoritmo de florestas aleatórias pode levar a uma maior diversidade de agrupamentos por meio da randomização no nível de cada divisão nas árvores que formam o agrupamento.

Exercise 1: Agregação de bootstrap Exercise 2: Definir o classificador de agregação de bootstrap Exercise 3: Avaliar o desempenho da agregação de bootstrap Exercise 4: Avaliação Out of Bag Exercise 5: Preparar o terreno Exercise 6: Pontuação OOB versus pontuação do conjunto de teste Exercise 7: Florestas aleatórias (RF)Exercise 8: Treinar um regressor RF Exercise 9: Avaliar o regressor RF Exercise 10: Visualização da importância dos recursos

Boosting refere-se a um método de agrupamento no qual vários modelos são treinados sequencialmente com cada modelo aprendendo com os erros de seus predecessores. Neste capítulo, você conhecerá os dois métodos de boosting do AdaBoost e do Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Definir o classificador AdaBoost Exercise 3: Treinar o classificador AdaBoost Exercise 4: Avaliar o classificador AdaBoost Exercise 5: Gradient Boosting (GB)Exercise 6: Definir o regressor GB Exercise 7: Treinar o regressor GB Exercise 8: Avaliar o regressor GB Exercise 9: Gradient Boosting Estocástico (SGB)Exercise 10: Regressão com SGB Exercise 11: Treinar o regressor SGB Exercise 12: Avaliar o regressor SGB

Os hiperparâmetros de um modelo de aprendizado de máquina são parâmetros que não são aprendidos com os dados. Eles devem ser definidos antes de você ajustar o modelo ao conjunto de treinamento. Neste capítulo, você aprenderá a ajustar os hiperparâmetros de um modelo baseado em árvore usando a validação cruzada de pesquisa de grade.

Exercise 1: Ajuste dos hiperparâmetros de um CART Exercise 2: Hiperparâmetros da árvore Exercise 3: Definir a grade de hiperparâmetros da árvore Exercise 4: Busca da árvore ideal Exercise 5: Avaliar a árvore ideal Exercise 6: Ajuste dos hiperparâmetros de um RF Exercise 7: Hiperparâmetros de florestas aleatórias Exercise 8: Definir a grade de hiperparâmetros de RF Exercise 9: Busca da floresta ideal Exercise 10: Avaliar a floresta ideal Exercise 11: Parabéns!