Ajuste de hiperparâmetros com RandomizedSearchCV

Como você viu, GridSearchCV pode ser caro do ponto de vista computacional, principalmente se você estiver pesquisando em um grande espaço de hiperparâmetros. Nesse caso, você pode usar RandomizedSearchCV, que testa um número fixo de configurações de hiperparâmetros a partir de distribuições de probabilidade especificadas.

Os conjuntos de treinamento e teste de diabetes_df foram pré-carregados para você como X_train, X_test, y_train e y_test, sendo que a variável dependente é "diabetes". Um modelo de regressão logística foi criado e armazenado como logreg, além de uma variável KFold armazenada como kf.

Você deve definir um intervalo de hiperparâmetros e usar RandomizedSearchCV, que foi importado de sklearn.model_selection, para procurar hiperparâmetros ideais com base nessas opções.

Este exercício faz parte do curso

Aprendizado Supervisionado com o scikit-learn

Instruções do exercício

Crie params, adicionando "l1" e "l2" como valores de penalty, definindo C como um intervalo com 50 floats entre 0.1 e 1.0, e class_weight como "balanced" ou como um dicionário contendo 0:0.8, 1:0.2.
Crie o objeto Randomized Search CV, passando o modelo e os parâmetros e definindo cv igual a kf.
Ajuste logreg_cv aos dados de treinamento.
Imprima os melhores parâmetros e a pontuação de precisão do modelo.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create the parameter space
params = {"penalty": ["____", "____"],
         "tol": np.linspace(0.0001, 1.0, 50),
         "C": np.linspace(____, ____, ____),
         "class_weight": ["____", {0:____, 1:____}]}

# Instantiate the RandomizedSearchCV object
logreg_cv = ____(____, ____, cv=____)

# Fit the data to the model
logreg_cv.____(____, ____)

# Print the tuned parameters and score
print("Tuned Logistic Regression Parameters: {}".format(____.____))
print("Tuned Logistic Regression Best Accuracy Score: {}".format(____.____))

Editar e executar o código

Este exercício faz parte do curso

Aprendizado Supervisionado com o scikit-learn

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Neste capítulo, será feita uma introdução aos problemas de classificação e você aprenderá a resolvê-los usando técnicas de aprendizado supervisionado. Você vai aprender a dividir os dados em conjuntos de treinamento e teste, ajustar um modelo, fazer previsões e avaliar a precisão. Você descobrirá a relação entre complexidade e desempenho do modelo, aplicando o que aprendeu a um conjunto de dados de cancelamento de assinaturas, no qual classificará a situação dos cancelamentos de clientes de uma empresa de telecomunicações.

Exercise 1: Aprendizado de máquina com o scikit-learn Exercise 2: Classificação binária Exercise 3: Fluxo de trabalho de aprendizado supervisionado Exercise 4: O desafio da classificação Exercise 5: k vizinhos mais próximos: ajuste Exercise 6: k vizinhos mais próximos: previsão Exercise 7: Avaliação do desempenho do modelo Exercise 8: Divisão em treinamento/teste + cálculo da precisão Exercise 9: Sobreajuste e subajuste Exercise 10: Visualização da complexidade do modelo

Este capítulo introduz o conceito de regressão, e você vai criar modelos para prever valores de vendas usando um conjunto de dados sobre gastos com publicidade. Você aprenderá como funcionam a regressão linear e métricas de desempenho comuns, como R-quadrado e raiz do erro quadrático médio. Você vai fazer a validação cruzada com k grupos (k folds) e aplicar a regularização a modelos de regressão para reduzir o risco de sobreajuste.

Exercise 1: Introdução à regressão Exercise 2: Criação de variáveis independentes Exercise 3: Criação de um modelo de regressão linear Exercise 4: Visualização de um modelo de regressão linear Exercise 5: Noções básicas de regressão linear Exercise 6: Ajuste e previsão para regressão Exercise 7: Desempenho da regressão Exercise 8: Validação cruzada Exercise 9: Validação cruzada com R-quadrado Exercise 10: Análise de métricas de validação cruzada Exercise 11: Regressão regularizada Exercise 12: Regressão regularizada: ridge Exercise 13: Regressão Lasso para análise da importância de variáveis independentes

Depois de treinar os modelos, agora você aprenderá a avaliá-los. Neste capítulo, são apresentadas várias métricas e uma técnica de visualização para analisar o desempenho do modelo de classificação usando o scikit-learn. Você também aprenderá a otimizar modelos de classificação e regressão por meio do ajuste de hiperparâmetros.

Exercise 1: Qual é o desempenho de seu modelo?Exercise 2: Decisão sobre uma métrica primária Exercise 3: Avaliação de um classificador para previsão de diabetes Exercise 4: Regressão logística e curva de COR Exercise 5: Criação de um modelo de regressão logística Exercise 6: A curva de COR Exercise 7: Área sob a curva de COR (ROC AUC)Exercise 8: Ajuste de hiperparâmetros Exercise 9: Ajuste de hiperparâmetros com GridSearchCV Exercise 10: Ajuste de hiperparâmetros com RandomizedSearchCV

Exercício atual

Saiba como imputar valores faltantes, converter dados categóricos em valores numéricos, fazer o escalonamento de dados, avaliar vários modelos de aprendizado supervisionado de maneira simultânea e criar pipelines para otimizar o fluxo de trabalho!

Exercise 1: Pré-processamento de dados Exercise 2: Criação de variáveis binárias (dummies)Exercise 3: Regressão com variáveis independentes categóricas Exercise 4: Tratamento de dados faltantes Exercise 5: Eliminação de dados faltantes Exercise 6: Pipeline para previsão do gênero de músicas: I Exercise 7: Pipeline para previsão do gênero de músicas: II Exercise 8: Centralização e escalonamento Exercise 9: Centralização e escalonamento para regressão Exercise 10: Centralização e escalonamento para classificação Exercise 11: Avaliação de vários modelos Exercise 12: Visualização do desempenho do modelo de regressão Exercise 13: Previsão com base no conjunto de teste Exercise 14: Visualização do desempenho do modelo de classificação Exercise 15: Pipeline para previsão da popularidade de músicas Exercise 16: Parabéns!